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多 元 统计 分 析 是 经 典 统 计 学 的 一 个 重要 分 支 ,内 容 十 分 丰富 .应 用 范围 极为 广泛 。 它 能 
够 在 多 个 对 象 和 多 个 指标 互相 关联 的 情况 下 ,应 用 数理 统计 学 分 析 方 法 提炼 出 规律 性 的 结 
论 。 特 别 是 , 随 着 电子 计算 机 的 普及 和 软件 的 发 展 ,信息 储存 手段 以 及 数据 信息 的 成 倍增 
长 ,多 元 分 析 的 方法 已 广泛 应 用 于 自然 科学 和 社会 科学 的 各 个 领域 。 国 内 外 实际 应 用 中 卓 
有 成 效 ,已 证 明了 多 元 分 析 方 法 是 处 理 多 维 数据 不 可 缺少 的 重要 工具 ,并 日 益 显 示 出 无 比 的 
魅力 。 

为 了 满足 应 用 型 学 院 的 有 关 专 业 开设 “多 元 统计 分 析 ” 课 程 的 要 求 ,作者 根据 多 年 教学 
实践 经 验 编写 了 本 书 ,希望 给 应 用 型 学 院 的 学 生 提 供 一 本 既 能 保持 多 元 统计 理论 的 系统 性 ， 
又 能 理论 联系 实际 ,进行 案例 数据 处 理 和 分 析 的 教科 书 。 在 系统 介绍 多 元 统计 分 析 基 本 理 
论 和 方法 的 同时 ,选择 典型 的 事例 进行 剖析 ,注重 介绍 每 种 多 元 分 析 方 法 的 实际 背景 、 统 计 
思想 .统计 模型 .数学 原理 和 解 题 的 思路 ,突出 实际 问题 的 应 用 和 统计 思想 的 渗透 。 

本 教材 分 为 理论 和 实验 两 部 分 ,每 章 都 有 数学 实验 环节 ,结合 实例 介绍 统计 软件 的 操作 
和 使 用 ,理论 性 和 实用 性 相 结合 ,提高 学 生 学 习 兴 趣 ,培养 学 生 解 决 实际 问题 的 能 力 。 配 备 
适当 课 后 练习 和 思考 题 ,鼓励 学 生 自 己 利 用 一 些 实际 数据 进行 操作 和 实现 ,巩固 所 学 知识 。 
实验 的 每 一 个 步骤 都 有 贴图 演示 ,以 及 输出 结果 的 详细 分 析 , 帮助 学 生理 解 和 掌握 所 学 知 
识 , 做 到 “学 以 致 用 ”。 

本 书 共 分 十 章 ,主要 介绍 经 典 多 元 分 析 的 基本 理论 ,包括 多 元 正 态 及 其 抽样 分 布 、 假 设 
检验 ; 聚 类 分 析 、 判 别 分 析 、 主 成 分 分 析 、 因 子 分 析 、 典 型 相关 分 析 等 主要 的 多 元 统计 方法 。 
理论 课 与 实验 课 的 内 容 按 2 : 1 的 模式 设计 ,通过 对 实际 案例 的 数据 分 析 培 养 学 生 统 计 思 
A8 ,熟练 应 用 所 学 的 统计 方法 和 各 种 统计 模型 ,培养 学 生 建 立 统计 模型 解决 问题 的 能 力 , 提 
高 学 生 的 综合 素质 。 

本 书 编写 过 程 中 ,作者 参考 了 高 等 院 校 常用 的 教材 和 近年 来 的 有 关 文 献 资 料 。 在 写作 
中 ,作者 力求 做 到 语言 简洁 流畅 ,层次 清楚 ,理论 与 实践 操作 并 重 , 内 容 丰 富 , 既 便于 学 生 循 
序 渐 进 地 系统 学 习 多 元 统计 的 基本 理论 ,又 能 使 他 们 熟悉 掌握 这 些 理论 的 应 用 和 实际 数据 
的 处 理 ,解决 实际 问题 。 本 书 不 仅 可 以 作为 应 用 型 学 院 有 关 专 业 的 教材 ,也 可 以 供 广 大 实际 
工作 者 .科研 人 员 阅 读 和 参考 。 

本 书 作为 应 用 型 学 院 “ 多 元 统计 分 析 ” 的 教材 ,根据 我 们 多 年 的 教学 实践 ,安排 32 十 16 
课时 ,可 以 讲授 前 八 章 。 教 师 可 以 根据 具体 情况 ,灵活 选 讲 。 
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第 一 篇 ”多 元 统计 分 析 原 理 与 方法 


1.1 多 元 统计 简介 


在 实际 问题 中 ,我 们 常常 需要 处 理 多 个 变量 的 观测 数据 。 例 如 在 研究 公司 的 运营 情况 
时 ,要 考虑 公司 的 获 利 能 力 ,资金 周转 能 力 ,竞争 能 力 以 及 偿 债 能 力 等 财务 指标 ;又 如 衡量 一 
个 地 区 的 经 济 发 展 水 平 , 需 要 观察 的 指标 有 :总 产值 .利润 ,效益 、 劳 动 生产 率 等 ;在 医学 诊断 
中 ,有 病 还 是 无 病 , 需 做 多 项 检测 :血压 .体温 ,心跳 .白细胞 等 。 显 然 , 如 果 我 们 只 研究 一 个 
指标 或 是 将 这 些 指 标 制 裂 开 分 别 研究 ,是 不 能 从 整体 上 把 握 研 究 问 题 的 实质 的 ,解决 这 些 问 
题 就 需要 多 元 统计 分 析 方 法 。 多 元 统计 分 析 (moultivariate statistical analysis) 就 是 研究 多 
个 随机 变量 之 间 相 互 依赖 关系 以 及 内 在 统计 规律 的 一 门 学 科 , 利 用 其 中 的 不 同方 法 可 对 研 
究 对 象 进行 分 类 和 简化 。 

多 元 分 析 包 括 的 主要 内 容 有 :多 元 正 态 总 体 的 参数 估计 和 假设 检验 以 及 常用 的 统计 方 
法 。 这 些 方法 有 多 元 数据 图 表示 法 . 聚 类 分 析 .判别 分 析 、 主 成 分 分 析 、 因 子 分 析 、 对 应 分 析 、 
多 维 标 度 法 、 典 型 相关 分 析 .路 径 分 析 多 重 多 元 回归 分 析 等 。 本 书 重 点 介绍 前 8 种 方法 。 

早 在 19 世纪 就 出 现 了 处 理 二 维 正 态 总 体 的 一 些 方法 ,但 系统 地 处 理 多 维 概率 分 布 总 体 
的 统计 分 析 问 题 , 则 开始 于 20 世纪 。 人 们 常 把 1928 年 Wishart 分 布 的 导出 作为 多 元 分 析 
成 为 一 个 独立 学 科 的 标志 。20 世纪 30 年 代 ,R. A. 费 希 尔 、H. 霍 特 林 、 许 宝 碌 以 及 S. N. 罗 
伊 等 人 作出 了 一 系列 葛 基 性 的 工作 ,使 多 元 统计 分 析 在 理论 上 得 到 了 迅速 的 进展 。40 年 
代 , 多 元 分 析 在 心理 .教育 .生物 等 方面 获得 了 一 些 应 用 。 由 于 应 用 时 常 需要 大 量 的 计算 ,加 
上 第 二 次 世界 大 战 的 影响 ,使 其 发 展 停 滞 了 相当 长 的 时 间 。50 年 代 中 期 , 随 着 电子 计算 机 
的 发 展 和 普及 , 它 在 地 质 .气象 .标准 化 .生物 .图像 处 理 、 经 济 分 析 等 许多 领域 得 到 了 广泛 的 
应 用 ,也 促进 了 理论 的 发 展 。20 世纪 60 年 代 通 过 应 用 和 实践 又 完善 和 发 展 了 理论 ,由 于 新 
的 理论 .新 的 方法 不 断 涌现 又 促使 它 的 应 用 范围 更 加 扩大 。70 年 代 初 期 在 我 国 才 受到 各 个 
领域 的 极 大 关注 。 近 40 多 年 来 我 国 在 多 元 统计 方法 的 理论 研究 和 应 用 上 也 取得 了 很 多 显 
著 成 绩 , 有 些 研究 工作 已 达到 国际 水 平 , 并 已 形成 一 支 科 技 队 伍 ,活跃 在 各 条 战线 上 。 


1.2 主要 内 容 安 排 


本 书 共 分 为 十 章 。 
第 一 章 绪论 ,主要 介绍 多 元 分 析 研 究 对 象 及 发 展 历史 。 第 二 章 简要 地 介绍 多 元 数据 的 


n n 
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图 表示 法 。 第 三 章 介绍 多 元 分 析 的 基本 概念 和 基本 理论 。 主 要 介绍 多 元 正 态 总 体 的 参数 估 
计 和 假设 检验 。 

第 四 章 和 第 五 章 主要 研究 分 类 问题 ,介绍 聚 类 分 析 法 和 判别 分 析 法 。 实 际 应 用 时 两 种 
方法 往往 联合 起 来 使 用 。 因 为 判别 分 析 要 求 对 新 样品 进行 判别 分 类 之 前 , 必 先知 道 已 有 几 
类 总 体 ,然后 建立 判别 式 ,对 新 样品 进行 判别 归 类 。 如 果 一 批 给 出 样品 要 划分 几 类 事先 不 知 
道 , 这 时 可 先 做 聚 类 分 析 然后 再 做 判别 分 析 。 

第 六 章 和 第 七 章 介绍 主 成 分 分 析 、 因 子 分 析 。 主 要 研究 结构 化 简 问题 ,将 具有 错综复杂 
关系 的 变量 (或 样品 ) 综 合成 数量 较 少 的 因子 尽 可 能 简单 地 表示 所 研究 的 对 象 ,又 不 至 于 损 
失 很 多 有 价值 的 信息 。 

第 八 章 研究 两 组 变量 之 间 的 相关 关系 ,介绍 典型 相关 分 析 , 用 于 简化 两 组 变量 为 少数 综 
合 变量 以 再 现 原来 两 组 变量 之 间 的 相关 关系 。 

第 九 章 和 第 十 章 介绍 了 对 应 分 析 和 多 维 标 度 分 析 , 对 应 分 析 可 以 把 变量 点 和 样品 点 同 
时 反映 在 同一 个 因子 轴 所 确定 的 平面 上 ( 即 取 同 一 个 坐标 系 ) ,根据 接近 的 程度 ,将 变量 点 和 

品 点 一 起 考虑 进行 分 类 。 多 维 尺度 分 析 通 过 低 维 空间 (通常 是 二 维 空间 ) 展 示 多 个 研究 对 
象 (样品 ) 之 间 的 联系 ,利用 平面 距离 来 反映 研究 对 象 之 间 的 相似 程度 。 这 两 种 方法 都 是 通 
过 降 维 ,在 尽 可 能 保留 高 维 数据 信息 的 前 提 下 ,把 高 维 数据 表达 在 平面 图 上 ,从 而 从 视觉 上 
简单 的 辨别 出 这 些 高 维 数据 之 间 的 关系 。 

本 书 除 第 一 、 二 章 之 外 ,其 余 各 章 在 统计 方法 介绍 之 后 ,都 给 出 应 用 性 课题 的 SPSS 实 
现 , 共 包含 8 个 实验 , 供 选 作 题 参考 ,读者 不 妨 就 这 些 课题 ,收集 有 关 数 据 , 按 每 章 所 述 方法 
去 计算 和 分 析 , 定 有 收获 。 本 书 的 特点 是 将 常用 的 多 元 分 析 方法 的 介绍 与 在 计算 机 上 实现 
这 些 方法 的 软件 紧密 地 结合 起 来 ,不 仅 介绍 每 种 多 元 分 析 方法 的 实际 背景 .统计 思想 .统计 
模型 数学 原理 和 解 题 的 思路 ,并 结合 实例 介绍 应 用 统计 软件 (Spss 系统 ) 解 决 问题 的 步 又 
和 计算 结果 的 分 析 。 


第 二 章 
多 元 数据 图 表示 法 


第 二 蔓 ” 多 元 数据 图 表示 法 


图 形 是 对 资料 进行 探索 性 研究 的 重要 工具 , 当 变 量 较 少 时 ,可 以 采用 直方 图 .条 形 图 、 饼 
图 、 散 点 图 或 是 经 验 分 布 的 密度 图 等 方法 。 对 于 变量 少 于 3 个 的 情况 这 样 做 简单 而 有 效 。 
当 变 量 个 数 大 于 3 个 时 ,就 不 能 用 通常 的 方法 作 图 了 。 如 果 能 把 一 些 多 元 数据 直接 显示 在 
平面 图 上 , 便 可 借助 图 形 来 描述 多 元 数据 的 特性 ,从 而 使 图 形 更 加 直观 ,简洁 。 自 20 世纪 
70 年 代 以 来 ,多 元 数据 的 图 表示 法 一 直 是 人 们 所 关注 的 问题 ,期 间 涌 现 了 很 多 方法 ,这 些 方 
法 大 体 上 分 为 两 类 :一 类 是 使 高 维 空间 的 点 与 二 维 、 三 维 的 空间 上 的 某 种 图 形 对 应 ,这 种 图 
形 能 反映 高 维 数据 的 某 些 特点 或 数据 间 的 某 些 关系 ; 另 一 类 是 在 尽 可 能 多 地 保留 原 数据 的 
言 息 的 原则 下 进行 降 维 , 若 使 维 数 降低 到 三 维 以 下 , 便 可 以 在 图 形 上 直观 的 表达 原 数 据 的 主 
要 信息 。 后 者 主要 的 方法 : 主 成 分 法 ,因子 分 析 , 对 应 分 析 , 多 维 标 度 分 析 等 。 前 者 主要 有 散 
点 图 矩阵 .雷达 图 ,调和 曲线 图 .脸谱 图 等 ,本 章 主 要 介绍 这 四 种 多 变量 的 图 表示 法 的 基本 思 
想 及 作 图 方法 。 

设 指标 (变量 ) 数 为 户 ,观测 次 数 为 2 样品 容量 ), 第 a 次 观测 值 记 为 X, — Gra xot 
ra) .c—l.tan. n WAW RGE TE SABE X — Goss, 


ra 
X Tu Ti ° Tip 
/ 
x X T2) Tz Ut Lap 
/ 
X, Ta Gp ™ Xu 


例 1 考察 2011 年 广东 江苏、 陕西 ` 甘 肃 四 个 省 城镇 居民 家 庭 平均 每 人 全 年 现金 消费 
支出 情况 ,选取 五 项 指标 ,具体 数据 见 表 2. 1( 摘 自 2012 年 中 国 统计 年 鉴 ) 。 


表 2-1 (单位 :元 ) 

肉禽 及 制品 医疗 保健 交通 和 通信 文教 和 娱乐 
广东 1926. 38 948. 18 3630. 62 2647. 94 
江苏 1205. 12 4: 962. 45 2262.19 2695.52 
陕西 642. 23 1100. 51 1502. 44 1857. 6 
甘肃 621. 34 874. 05 1289.8 1158.3 


此 例 变 量 个 数 p= 二 5, 观 测 次 数 n4. 


2.1 BUA BIHE K 


散 点 图 矩阵 是 借助 两 变量 散 点 图 的 作 图 方法 , 它 可 以 看 作 一 个 大 的 图 形 方 阵 , 其 每 一 个 


非 对 角 元 素 的 位 置 上 是 对 应 行 的 变量 与 对 应 列 的 变量 的 散 点 图 。 它 所 研究 的 仍 是 两 两 变量 
之 间 的 相关 关系 ,而 不 能 直接 反映 多 个 变量 之 间 的 关系 ,借助 它 来 对 资料 分 类 也 是 比较 困 
难 的 。 

然而 , 因 其 直观 .简单 .容易 理解 , 散 点 图 矩阵 还 是 越 来 越 受到 广大 实际 工作 者 的 喜爱 ， 
很 多 统计 软件 也 加 入 了 作 散 点 图 矩阵 的 功能 。 

下 面 举例 说 明 如 何 用 Spss 软件 作 散 点 图 德 阵 对 资料 进行 研究 ,以 Spss 软件 自 带 的 
World95. sav 资料 为 例 : 

该 资料 共有 26 个 变量 、109 条 观测 ,是 1995 年 世界 109 个 国家 和 地 区 的 基本 发 展 情况 
的 资料 。 选 择 该 亚洲 地 区 的 国家 的 几 个 变量 作 图 :lifeexpf( 女 性 预期 寿命 ) lifeexpm( 男 性 
预期 寿命 ) ,gdp_cap(GDP 是 总 资产 的 倍数 ) birth_rt C JL HE XE) ,death_rt( 婴 儿 死 亡 
3), 

按 graphs— legacy dialogs— scatterplot/dot 顺序 打开 主 对 话 框 ,matrix 为 矩阵 散 点 图 
( 见 图 2.1)。 单 击 define 按钮 ,展开 scatterplot matrix 和 矩阵 散 点 图 对 话 框 ,选择 要 分 析 的 变 
量 ,点击 OK. 
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o 
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Average Average Gross Birth rate Death rate 
female life male life domestic per 1000 per 1000 
expectanc expectanc product/ people people 
y y capitw 
图 2.1 


由 散 点 图 矩阵 可 以 看 到 ,男性 的 预期 寿命 ,女性 的 预期 寿命 及 婴儿 死亡 率 , 婴 儿 出 生 率 
四 个 变量 之 间 有 明显 的 线性 相关 性 ,而 GDP 是 总 资产 的 倍数 与 上 面 四 个 变量 存在 着 某 种 曲 
线 相 关 关 系 。 

资料 集 World95. sav 中 变量 religion 的 含义 主要 的 宗教 信仰 ,在 Sactterplot Matrix 对 
话 框 中 将 regligion 变量 选 作 标记 变量 ( 选 入 Set markers by) , 则 在 输出 的 散 点 图 和 矩阵 中 ,不 
同宗 教 信仰 的 国家 以 不 同 的 颜色 画 出 ,这 样 可 以 做 更 详细 的 分 析 。 
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2.2 雷达 图 


雷达 图 是 目前 应 用 最 为 广泛 的 对 多 元 资料 进行 作 图 的 方法 ,利用 雷达 图 可 以 很 方便 地 
研究 各 样本 点 之 间 的 关系 并 进而 对 样品 进行 归 类 。 设 要 分 析 的 资料 共有 p 个 变量 ,雷达 图 
的 标准 画 法 如 下 : 

(1) 作 一 圆 , 并 把 圆周 分 为 p 等 分 。 

(2) 连 接 圆 心 和 各 分 点 ,把 这 p 条 半径 依次 定义 为 各 变量 的 坐标 轴 , 并 标 以 适当 的 
刻度 。 
(3) 对 给 定 的 一 次 观测 值 ,把 它 的 之 个 分 量 值 分 别 点 在 相应 的 坐标 轴 上 ,然后 连接 成 一 
A p 边 形 ,这 个 p 边 形 就 是 p 元 观测 值 的 图 示 ,n 次 观测 值 可 画 出 n 个 p 边 形 。 

Excel 软件 提供 了 画 雷 达 图 的 功能 , 它 适合 于 观测 数 ( 样 品 ) 较 少 的 情形 ,这 时 可 以 方便 
地 把 各 观测 画 到 一 张 图 里 面 ,便于 对 各 指标 进行 对 比 ,将 例 1 数据 用 雷达 图 表示 如 图 2. 2。 


肉禽 及 制品 
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文教 娱乐 人 CE 中 住房 一 广东 
N We 一 一 江苏 
NV —— 陕西 

Zu 
交通 和 通信 医疗 保健 


图 2.2 


这 种 图 形 既 像 雷 达 菊 光 屏 上 看 到 的 图 像 t f T HD «DSL IEEE AK). tA AA 
称 为 蛛网 图 。 利 用 雷达 图 有 助 于 观测 多 元 数据 的 某 些 特点 ,便于 进行 分 析 , 例 如 从 上 图 不 难 
看 出 广东 、 江 苏 各 种 指标 都 较 高 ,对 应 着 一 个 面积 较 大 的 五 边 形 。 而 陕西 .甘肃 各 种 指标 都 
较 低 ,其 图 形 面 积 也 较 小 ,利用 图 形 和 面积 大 小 可 对 样品 进行 初始 分 类 ,将 广东 、 江 苏 分 为 一 
类 ,陕西 .甘肃 分 为 一 类 。 

当 观 测 数 比 较 多 时 , 画 到 一 张 雷达 图 里 面 就 不 太 容 易 看 出 各 观测 之 间 的 接近 程度 ,用 
Excel 当然 也 可 以 对 每 一 个 观测 画 一 张 雷达 图 。 值 得 注意 的 是 ,这 里 坐标 轴 只 有 正 半 轴 , 因 
而 只 能 表示 非 负 数据 ,车 有 负数 据 , 只 能 通过 合理 变换 使 之 非 负 才 行 。 


2.3 调和 曲线 图 


调和 曲线 图 是 D. F. Andrews1972 年 提出 的 三 角 多 项 式 作 图 法 ,所 以 又 称 为 三 角 多 项 
式 图 ,其 思想 是 把 高 维 空间 中 的 一 个 样品 点 对 应 于 二 维 平面 上 的 一 条 曲线 。 
设 思维 数据 和 三 (zi 929° Tp ) 对 应 的 曲线 是 


x . ; 
fO Hæ sint - x4 cost t x, sin2t-4- ws cos2t-- -*- 


— gk XCt«cb5 

上 式 当 上 在 区 间 ( 一 r,r) 上 变化 时 ,其 轨迹 是 一 条 曲线 。 

n 次 观测 对 应 n 条 曲线 , 画 在 同一 平面 上 就 是 一 张 调和 曲线 图 。 在 多 项 式 的 图 表示 中 ， 
当 各 变量 的 数值 太 悬 殊 时 ,最 好 先 标 准 化 后 再 作 图 。 

从 数学 上 看 ,调和 曲线 图 是 一 种 较 好 的 图 示 法 ,因为 它 具 有 许多 好 的 性 质 ， 

(1) 保 线性 关系 

d X,Y, ZIK p 4M Bab 为 常数 , 若 Z 二 aX 十 bY Wy 

f-<D=afx@Q)+bfy@ , -~mSt<n 
(2) 保 欧 氏 距离 
由 于 fx GO) fy() 都 是 L 一 x,x] 上 的 平方 可 积 函 数 , 定 义 它们 之 间 的 欧 氏 距离 为 ; 


dig, = it | fx CO — fy) |? dt 
2 ass 1 2 
dxy = 元 dx 


这 就 是 说 原来 两 个 样品 之 间 的 欧 氏 距离 与 变换 后 两 条 曲线 的 距离 只 差 一 个 倍数 , 故 调 
和 曲线 图 对 聚 类 分 析 帮 助 很 大 ,同类 的 曲线 非常 靠近 拧 在 一 起 ,不 同类 的 曲线 相互 分 开 dE 
常 直观。 
作 调 和 曲线 时 一 般 要 借助 计算 机 作 图 ,我 们 利用 Matlab 画 出 例 1 的 数据 所 代表 的 调和 
曲线 图 : 
X=[1926. 38 541. 63 948. 18 3630. 62 2647.94; 
1205. 12 438 962. 45 2262.19 2695.52; 
642. 23 291. 67 1100. 51 1502. 44 1857.6; 
621.34 266.16 874. 05 1289.8 1158. 3] 
species= { ‘J AR’, “江西 ', “陕西 Hat’ } 
andrewsplot(X, ‘group’ , species) 
8000 
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图 2.3 


从 图 2. 3 可 以 看 出 ,广东 、 江 苏 可 以 归 为 一 类 ,陕西 .甘肃 归 为 一 类 。 
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2.4 脸谱 图 


脸谱 图 用 脸谱 来 表达 多 变量 的 样品 ,由 美国 统计 学 家 H. Chernoff F 1970 年 首先 提 
出 ,该 方法 是 将 观测 的 各 个 变量 (指标 ) 分 别 用 脸 的 某 一 部 位 的 形状 或 大 小 来 表示 ,一 个 样品 
(观测 ) 可 以 画 成 一 张 脸谱 。 他 首先 将 该 方法 用 于 聚 类 分 析 , 引 起 了 各 国 统计 学 家 的 极 大 兴 
趣 , 并 对 他 的 画 法 作出 了 改进 。 

按照 切 尔 诺 夫 于 1973 年 提出 的 画 法 ,脸谱 图 采用 15 个 指标 ,各 指标 代表 的 面部 特征 
为 :1 表示 脸 的 范围 ,2 表示 脸 的 形状 ,3 表示 鼻子 的 长 度 ,4 表 示 嘴 的 位 置 ,5 表示 笑容 曲线 ， 
6 表示 嘴 的 宽度 ,7 一 11 分 别 表示 眼睛 的 位 置 ,分 开 程 度 ,角度 ,形状 和 宽度 ,12 表示 瞳孔 的 
位 置 ,13 一 15 分 别 表示 眼眉 的 位 置 ,角度 及 宽度 。 这 样 ,按照 各 变量 的 取 值 ,根据 一 定 的 数 
学 函数 关系 ,就 可 以 确定 脸 的 轮廓 .形状 及 五 官 的 部 位 ,形状 ,每 一 个 样本 点 都 用 一 张 脸谱 来 
表示 。 而 脸谱 容易 给 人 们 留 下 较为 深刻 的 印象 ,通过 对 脸谱 的 分 析 , 就 可 以 直观 地 对 原始 资 
料 进 行 归 类 或 比较 研究 。 

在 实际 问题 的 分 析 中 ,如果 数据 的 指标 数 小 于 15, 则 脸 部 有 些 特征 将 被 自动 固定 。 统 
计 学 曾 给 出 了 几 种 不 同 的 脸谱 图 的 画 法 ,而 对 于 同一 种 脸谱 图 的 画 法 ,将 变量 次 序 重新 排 
列 ,得 到 的 脸谱 的 形状 也 会 有 很 大 不 同 。 此 处 我 们 不 对 脸谱 的 各 个 部 位 与 原始 变量 的 数学 
关系 作 过 多 探讨 ,而 只 说 明 其 作 图 的 思想 及 软件 实现 方法 。 

Matlab 软件 收录 了 脸谱 图 的 作 图 方法 ,这 里 先 介 绍 Matlab 中 实现 脸谱 图 的 一 个 基本 
PRA: glyphplot(X. ‘glyph’. face”，features ?7 .f) 

在 这 个 函数 中 ,X CRE EAS IE. S ESL XP ORES ) h e P I A — a PE ES ， 
下 面 的 表格 是 Matlab 的 脸 部 特征 所 对 应 的 代码 : 


1 


3 
5 
| 
7 


17 Mouth arc length 


下 面 我 们 举例 说 明 如 何 用 Matlab 软件 画 脸谱 图 ,比如 ， 


13 
15 


X=[2. 89,5. 16;1,4. 89] 
glyphplot(X, ‘glyph’, ‘face’, ‘features’ , [14,7 ]) 
结果 : 


”80] 有 两 个 指标 ( 列 数 ), 第 一 个 指标 对 应 的 脸 部 特征 是 
“14”, 表 示 鼻 子 的 长 度 , 第 二 指标 对 应 的 脸 部 特征 是 “7”, 表 示 眼 睛 的 高 度 。 经 过 定义 以 后 ， 
除了 眼睛 与 鼻子 之 外 ,两 个 样本 输出 图 形 的 其 他 脸 部 特征 是 相同 的 。 在 本 例 中 ,样本 1 509 
子 长 ,表明 样本 1 的 第 一 个 指标 比 样本 2 的 第 一 个 指标 大 得 多 ,同样 的 ,样本 1 的 眼睛 比 样 
本 2 的 眼睛 大 ,说 明 样本 1 的 第 二 指标 比 样本 2 的 第 二 指标 大 。 对 于 相同 的 数据 ,我 们 可 以 
改变 样品 对 应 的 脸 部 特征 的 定义 : 

glyphplot(X, ‘glyph’, ‘face’, ‘features’ ,[6,111]) 


可 得 图 形 : 
& $ 
1 2 


最 后 ,让 我 们 再 来 看 一 个 实例 。 

例 3 下 表 是 五 大 钢铁 公司 反映 经 营 状 况 的 十 大 指标 ,为 了 比较 国内 钢铁 公司 与 韩国 
蒲 项 钢铁 公司 的 差距 ,下 面 做 出 韩国 蒲 项 钢铁 公司 宝钢、 鞍钢 .武钢 .首钢 五 家 钢铁 公司 的 
脸谱 图 。 


上 边 的 数据 X 一 | 


项 目 宝钢 鞍钢 武钢 首钢 浦 钢 

负债 保障 率 2. 89 2. 95 2. 34 1. 85 8.12 

长 期 负债 倍数 5. 16 9. 15 6. 07 2. 63 6. 96 
流动 比率 1.31 1. 83 1.16 2.22 2.1 
资产 利润 率 21.71 17. 34 24. 77 11. 89 25.34 
收入 利润 率 23.17 | 1133 19.55 2.8 22.28 

成 本 费用 利率 30. 23 12. 76 24.81 8. 06 28.52 
净利 润 现金 比率 1. 79 0.9 1.7 1.09 1.3 
三 年 资产 平均 增长 率 1.448 | 7.28 63.3 11. 76 13.18 
三 年 销售 平均 增长 率 20. 07 29.19 52. 88 18.77 | 24.16 
三 年 平均 资本 增长 率 11.04 10.5 48. 95 7. 63 17.51 


第 二 章 AN 
多 元 数据 图 表示 法 
Matlab 中 输入 数据 : 
A=[2. 89,5. 16,1. 31,21. 71,23. 17,30. 23,1. 79,1. 48,20.07,11,04; 

2. 95,9. 15,1. 83,17. 34,11. 33,12. 76,0. 9,7. 28,29. 19,10. 5; 

2. 34,6.07,1. 16,24. 77,19. 55,24. 81,1. 7,63. 3,52. 88,48. 95; 

1. 85,2. 63,2. 22,11. 89,7. 6,8. 05,1. 09,11. 76,18. 77,7. 63; 

3.12.6. 96.2. 1,25. 34,22. 28,28. 52,1. 3,13. 18,24. 16.17. 51] 
glyphplotC A, ‘glyph’, ‘face’, ‘features’ ,[2,3,4,5,6,7,8,9,10.11 D; 


可 得 : 
1 2 3 
4 5 
可 按照 特征 表 进 行 各 个 指标 的 解释 ,也 能 从 总 体 上 提供 分 类 的 依据 ,上 图 形 看 ,5 个 样 


品 可 以 分 为 三 类 ,样本 2 ,5 可 以 分 成 一 类 ,1,3 分 成 一 类 ,4 分 成 一 类 。 


本 章 思 考 与 练习 


1. 试 述 多 变量 图 示 法 的 方法 思想 和 实际 意义 。 
2. 散 点 图 ,雷达 图 ,调和 曲线 图 ,脸谱 图 适合 的 场合 及 特点 是 什么 ? 
3. 以 下 是 两 家 上 市 公司 某 年 的 部 分 收益 性 及 成 长 性 财务 指标 : 


公司 简称 深 能 源 A 深 南 电 A 
净 资 产 收益 率 /% 16. 85 22 
总 资产 报酬 率 /% 12.35 15.3 
资产 负债 率 / % 42. 32 46. 51 
总 资产 周转 率 /% 0. 37 0.76 
流动 资产 周转 率 /% 1.78 1.77 
已 获 利息 倍数 /% 7.18 15. 67 
销售 增长 率 /% 45.73 48.11 
OE AS A BB / % 54. 54 19.41 


试用 本 章 所 学 的 图 形 描 述 上 述 数据 ,并 做 简单 的 分 析 。 
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第 三 革 ”均值 回 量 和 协 方差 阵 的 检验 


多 元 统计 分 析 涉 及 的 都 是 随机 向 量 或 随机 向 量 放 在 一 起 组 成 的 随机 矩阵 ,由 于 随机 向 
量 的 多 元 正 态 分 布 在 多 元 统计 分 析 的 理论 和 实际 运用 中 都 有 着 重要 的 地 位 ,本 章 着 重 介绍 
多 元 正 态 分 布 的 定义 、 参 数 估计 及 相关 的 检验 。 在 介绍 正 态 分 布 之 前 ,本 章 先 介绍 有 关 随 机 
向 量 的 基本 概念 。 

本 章 的 不 少 内 容 是 一 元 的 直接 推广 ,但 由 于 多 指标 问题 的 复杂 性 ,在 这 里 将 只 列 出 检验 
用 的 统计 量 ,介绍 如 何 使 用 这 些 统计 量 ,而 对 有 关 的 检验 问题 的 理论 推导 全 部 略 去 。 


3.1 随机 向 量 


这 里 研究 的 对 象 是 多 个 变量 的 总 体 , 即 同时 收集 了 p 个 指标 (变量 ), 又 进行 了 nn 次 观 
测 得 到 观测 样品 (样本 ) ,我 们 把 这 个 p ERROR X Xen X, ,常用 向 量 X 一 (Xi ,X。， 
e X) 表示 对 同一 个 体 观 测 的 p 个 变量 ,在 这 一 节 中 ,我 们 将 介绍 随机 向 量 的 基本 概念 。 

定义 3.1 将 户 个 随机 变量 Xi Xs X, 的 整体 称 为 p 维 随 机 向 量 , 记 为 X= (Xi， 
Xote X, 

定义 3.2 WE X—OX Xie X, 是 p 维 随机 向 量 , 它 的 多 元 分 布 函数 定义 为 

F(x) =F ay sxs sy)—= P(X Sa; Xo yn Xo, 

id X—FGO ,其 中 X= (xi ,Xxs vay) ER?,R? 表示 p 维 欧 氏 空间 。 

定义 3.3 设 X=(Xi,X,,…,X,) J& p 维 随 机 向 量 , 若 存在 有 限 个 或 可 列 个 p 维 数 向 
HE rostos W P(X 二 zo ) 二 Pi, 且 满 足 Pi 十 pi 十 … 二 1, 则 称 XX 为 离散 型 随机 向 量 , 称 
P(X=2u) =p AX 的 概率 分 布 。 

定义 3.4 设 XSF) SF rzo), 若 存在 非 负 函数 f(x ns nex, ,使 得 

F(x) = FG; stt) = | zu f Gi st tt st, dt dt, 


则 称 X 为 连续 型 随机 变量 , f Cei ,za，…zo) 为 分 布 密度 函数 。 

定义 3.5 WE X—(OX,.X, X, Æ EX) G— 10,77, p) TETE EHE R, MK E(X) = 
(E(X,),ECX,) 7 ,ECX,00 为 X 的 均值 (向 量 ) 或 数学 期 望 ,有 时 也 把 ECXO I ECX 2 51 
WA pe AM ui B p= Gu suo tuu e 

容易 推 得 均值 (向 量 ) 具 有 以 下 性 质 : 

(DE(AX)= AECX) 

(2)E(AXB)=AE(X)B 

(3)E(AX+BY)=AE(X)+BE(Y) 
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其 中 ,XY 为 随机 向 量 ,A、B 为 大 小 适合 运算 的 常数 矩阵 。 
定义 3.6 WU X=(X, Xz, KX) Y Qu Yee 
Cov(X .X,) Cov(X,, Xz) sae Cov(X, , X,) 
T , [OovtX,, X3) CovCX, X,) … Cov(X, X.) 
D(X) = E(X—E(X))(X—E(X))/= i À D 


CovCX,.X,) Cov(X,. X;) … Cov(X,,X,) 
为 X 的 方差 或 协 差 阵 ,有 时 把 DCX) 简 记 为 >》) ,CovCXi,Xi) 简 记 为 mi ,从 而 有 


一 《0ii)pxpo 
称 随机 向 量 X 和 YY 的 协 差 阵 为 : 
Cov(X,Y) = E(X — E(X))(¥ — E(Y))’ 
Cov(CX;,Y;) Cov(X,,Y;) … Cov(X,,Y,) 
Cov(X,,Y,) Cov(X,,Y2) … Cov(X,,Y,) 


CovCX,.Y)) Cov(X,,Y2) … Cov(X,,Y,) 

MOX = Y ht. By DCX) .# Cov( X.Y) 一 0, 则 称 X 和 YY 不 相关 ,由 X AMY 相互 独立 
易 推 得 Cov( X.Y) 一 0, 即 X 和 立 不 相关 ;但 反 过 来 , 当 X AY ANAS. — ARAB BE HE AE 177 
独立 。 

若 X = (Xi ,X: on X! 的 协 差 阵 存在 , 且 每 个 分 量 的 方差 大 于 零 , 则 称 随 机 向 量 X 的 
相关 阵 为 :R = (ry) xp ,其 中 

Cov(X;,X;) - 9j 

VDX) VDX) Voi Way. 


Ui 


当 A.B 为 常数 矩阵 时 ,由 定义 可 以 推出 协 差 阵 有 如 下 性 质 : 

CD 对 于 常数 向 量 <c, 有 D(X +a) = D(X) 

(2)D(AX) = AD(X)A’ = AD) A’ 

(3)Cov(AX ,AY) = ACov(X,Y)B’ 

最 后 ,我 们 应 该 注意 到 ,对 于 任何 的 随机 向 量 X — (Xi Xo en X,) 来 说 ,其 协 差 阵 》) 
都 是 对 称 阵 , 同 时 总 是 非 负 定 ( 半 正定 ) 的 ,大 多 数 情况 是 正定 的 。 


3.2 多 元 正 态 分 布 


多 元 正 态 分 布 在 多 元 统计 分 析 中 所 占 的 重要 地 位 ,如 同一 元 统计 分 析 中 一 元 正 态 分 布 
所 占 的 重要 地 位 一 样 , 多 元 统计 分 析 的 许多 重要 理论 和 方法 都 是 直接 或 间接 建立 在 正 态 分 
布 的 基础 上 ,多 元 正 态 分 布 是 多 元 统计 分 析 的 基础 。 

3.2.1 多 元 正 态 分 布 的 定义 及 基本 性 质 

多 元 正 态 分 布 有 多 种 定义 方法 ,下 面 给 出 最 常用 的 一 种 ,并 列 出 其 相关 的 性 质 。 
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= * ` E 
< 一 
a 


EM 3.7 若 户 维 随机 向 量 X = (Xi,…,X,) 的 密度 函数 为 : 


" eee — l 1 一 一 / = — 
fins) Jaa | pm | PASS DM Gr — p)} 


其 中 工 = Gur on Ep 维 向 量 , >) E p IEW XO p 维 正 态 随机 向 量 ， 
简 记 :X ~ N, Cu, >) )。 可 以 证 明 关 为 X 的 均值 向 量 》) ,为 X 的 协 差 阵 。 
多 元 正 态 变 量 的 基本 性 质 : 
(1) 4 X = CX Xe X! ~ Ny Ges D >) 是 对 角 阵 , 则 X, X, 相互 独立 
(2) 4X = OG. Xi X)! 一 NG DDA As X p 阶 常数 阵 ,ad As 维 常数 向 量 ， 
MW:AX +d~N,(An+d,A>)A’) 
(3) E X = (XXn X NeQu 9 KE Xp D>) HEM FAA: 


2 pu p T 5 = ion Zn 
X bu p” T Bie ae oa 


W X9 一 N,Q DO ~ Nelp®, LO, 

3.2.2 多 元 正 态 分 布 的 参数 估计 

(一 ) 多 元 样本 的 概念 及 表示 法 

多 元 分 析 研 究 的 总 体 是 多 元 总 体 , 设 多 元 总 体 X ~ N, CE) ,随机 抽取 个 个 体 :Xa)， 
Xost Xm ARAWE FIKNE: 

(1) Xi Xos Xo; 相互 独立 

(2)X ,Xe Xo 与 总 体 同 分 布 
则 称 Xu «Xi s Xo; 为 该 总 体 的 一 个 多 元 随机 样本 ,简称 简单 样本 。 

每 个 Xu = (Xa Xz ott Xap) (a 二 1,2,…,n) 为 一 个 样品 (样本 ), 将 全 部 观测 结果 用 


一 个 n X p WIER 
Xw Xu Xi cn Xi, 
x= Xo ES n gsi sar Sar 
Noes Xu Xo d X 
Wk X 为 样本 资料 矩阵 。 
值得 注意 的 是 : 


CD 多 元 样本 中 的 每 个 样品 ,对 p 个 指标 的 观测 值 往往 是 有 相关 关系 的 ,但 不 同样 品 之 
间 的 观测 值 一 定 是 相互 独立 的 。 

(2) 多 元 分 析 所 处 理 的 多 元 样本 观测 数据 一 般 都 属于 横 截 面 数 据 , 即 在 同一 时 间 不 同 
空间 上 的 数据 。 

(二 )w 和 >， 的 极 大 似 然 估计 

多 元 总 体 X ~ N, E) Xo Xo Xo 为 该 总 体 的 一 个 多 元 随机 样本 
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Xa 
E X, 
= a Xa X 
D Fix =+) Xo = 1 2 =| 
i=1 H 
n X, 
2 Xo 
Li=l a 
(2) 样本 离 差 阵 :S — 》) Xo — X) Xo — X)! = i)o 
[ey 
YX’ zm >) (ha —X XX, — X4) 
i=1 -1 
B UE. XQ e DXi —X0O0G — X) 
Six, — i=1 i=] 


y, —X,)? 
i=l 


(3) 样本 协 差 阵 定义 为 :Vixn = +s = L0. —X)(Xw =X)" — Cos ) pxp 
a=1 


Sij 


(D 样本 相关 阵 定义 为 :R — Cry) xp EP ry = 3 


vi V/v j z Si 
可 以 证 明 jy AD) 的 极 大 似 然 估 计 为 : 


3.3 ”均值 向 量 的 检验 


第 三 章 
的 检验 


在 单一 变量 的 统计 分 析 中 ,已 经 给 出 了 正 态 总 体 Nuo) 的 均值 y 87728 o^ 的 各 种 检 
验 . 对 于 多 变量 的 正 态 总 体 N, Cus >) ) ,各 种 实际 问题 同样 要 求 对 py 和 >) 进行 统计 推断 。 例 
如 ,要 考察 全 国 各 省 .自治 区 和 直辖 市 的 社会 经 济 发 展 状况 ,与 全 国平 均 水 平 相 比 较 有 无 显 
著 性 差异 等 ,就 涉及 多 元 正 态 总 体 均值 向 量 的 检验 问题 等 ,本 章 类 似 单一 变量 统计 分 析 中 的 


各 种 均值 和 方差 的 检验 ,相应 地 给 出 多 元 统计 分 析 中 的 各 种 均值 向 量 和 协 差 阵 的 检验 。 


3.3.1 ”单个 正 态 总 体 N, (p, 》) ) 均值 向 量 的 检验 


BE p RERA N, Cus >》)), 从 总 体 中 抽取 容量 为 n 的 样本 : 


Xos X rt 9 Xen) X — 15 xo „S= DY Xo —X)(Xo — XxX)’ 
i=l i=l 


d) 已 知 总 体 协 方差 阵 ai; + a5, to tay = 1G = 0).2..m) 
Hosp = po Guo 为 已 知 均值 向 量 ) H, :人 Æ po 


在 Hy 成 立 的 条 件 下 ,检验 统计 量 Ti = nX — pm) 31 (OC pw) ~ LCP), 


拒绝 域 :W = (Ti > yi COD). 
(2) 未 知 总 体 协 方差 阵 >) 
Ho :pn = po Cpo 为 已 知 均值 向 量 ) Hi :人 天 po 


在 HH, 成 立 的 条 件 下 ,检验 统计 量 ccm A — p) 


其 中 了 T? = ae Vn OX — po) J 


拒绝 域 :W = | (Qer i Cue = 


— p) 
3.3.2 ”两 个 正 态 总 体 N, (m, >),) 和 N, (m, >),) 均值 向 量 的 检验 
设 
Xo = (XXX Nn ac irn 
Ya = (Fa Yeo Yo) ~ Nux ac lem 
(1) 有 共同 已 知 协 差 阵 >) =>),= > 
Ho:p = pas Hi:p A po 
在 Hy 成 立 的 条 件 下 ,检验 统计 量 T? = gm x) (X—Y ~ pp) 
拒绝 域 :W = (Ti >y (p)}. 
(2) 有 共同 的 未 知 协 差 阵 >， > 0 
Hoi: = pos Hi:p Aye > 
在 互 ,成立 的 条 件 下 ,检验 统计 量 


_— (n+m—2)—prla | u 
F tebe Bg T FCp.n-d-m-—p-4-10 


d 
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T = n+m-D| an - |s- mn. -9| 
nm 


S—5, +S: 


= S Oo = KX -—X) 


= Sy YutYu e» 
HW = (F> Emte- 1h: 
(3) 当 协 方差 阵 不 相等 , 则 3, 去 了), 且 3 >So. > ont 
Ho 3 qa = w, Hy 5 qn pe 


715 , *** 
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Zu = Xa — Y wd a, 2.* ML / 


s= X tZ.—ZUmg-ZY 


i=l 


在 H, 成 立 的 条 件 下 ,检验 统计 量 


F = i ~ F(psn— p) 


拒绝 域 :W = {F > F,Cp,n — p). 


nym 
在 此 ,我 们 不 妨 假 设 n 二 m. 


Zu = Ko — AL m S Yos c Aa Sn EM ide 
Vnm j= m 


j=1 


Be Iz -X 三 


S = eB Zia zy 


假设 Ho 成 立时 ， 检验 统计 量 为 “ 
F= 人 - pp p) 


拒绝 域 :W = {F > F,(p.n— p)} 
3.3.3 ”多 个 正 态 总 体 均值 向 量 的 检验 (多 元 方差 分 析 ) 


设 有 k Aep 元 正 态 总 体 N ,Cp +>) ott N, Cu, >>) ,从 每 个 总 体 抽取 独立 样品 个 数 为 Nis 


non te tm = ngu B. 


Ho :Hi = BO qu Ho :pa » 2.5 *** tty 至 少 有 两 个 不 相等 。 


每 个 样品 观测 p 个 指标 得 观测 数据 如 下 : 

第 一 个 总 体 :XY = (XI XD Xp) ,i 二 1,250 ， 
第 二 个 总 体 :X'2， — OX, (2) ye Re ) ,i 1 ,2 ,，… anos 
B k AS AR XE) = (XP Xi es Xu = 02,7 
全 部 样品 的 总 均值 向 量 : 


Il 


= {a E ES 
X—-12,2,X o = (X aes m d) 
各 总 体 样 品 的 均值 向 量 : 


Xx = ly xg = CX? ,X$? TI (DE —].e- 


组 间 离 差 阵 : A= Dao — X»)OX? — X» 


组 内 离 差 阵 : E = > (9 — XON (XP XY) 


a=] i= 


T 
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& Ma 
总 离 差 阵 : T= 5$ xg —X)(X8 —x»y 
一 $=] 


Ao : pı = Hg Se fi H, spn spz 9°" s Hg 至 少 有 两 个 不 相等 


—- ge wise 二 [一 二 | 
fr f gb (b DG 1) 成 立时 ,检验 统计 量 A IT A EI 


~ ACp.n— k.k 


一 1)CWilks 分 布 ) 。 

在 这 里 我 们 特别 要 注意 ,Wilks 分 布 表 也 可 用 A, 分 布 或 4% 分 布 来 近似 , 巴特 莱特 
(Bartlett) 提出 了 用 一 21nXA% 分 布 来 近似 。 设 A ~ A(p,n 一 k&,k 一 1), 令 

V =—(n—1—(p+h)/2)InA = lInA™ 

WW i = 1l. sk 近似 服从 x* (p(k 一 1)) 分 布 .其 中 ,1 = n—1—O 3 1/2. 

Rao 后 来 又 研究 用 n; 分 布 来 近似 . 设 人 一 4 人 (bp 一 AR 一 1), 令 

1— A". i1L—2 
2m ai PES 

则 头 一 1 近似 服从 FCpCR 一 1), 红 一 21), 这 里 人 不 一 定 为 整数 ,可 用 与 它 最 近 的 整数 来 作为 
一 2lnXA 4 的 自由 度 ， 且 min(p,k — D > 2 其 中 ,= n—1—(pt+e)/2,.L = 
pite — 1) —4 】 = 
pr 二 (ko—1)*—5 4 j 


3.4 ” 协 差 阵 的 检验 


3.4.1 一 个 正 态 总 体 协 方差 阵 的 检验 

Xe) = OG Xa Xy) a 二 1,…,n 为 来 自 p 维 正 态 总 体 N, (us >)) 的 样本 , >) 
FAs o>) SO, 

UNIS eL. uie 


所 构造 的 检验 统计 量 为 a= exp|— $us] |s| (5) 
其 中 S 为 样本 离 差 阵 。 在 Hy 成 立时 , — 21nA 极限 分 布 是 x*(p(p 十 1)/2) 分 布 ,因此 当 


xb oo /2) 


n> p, HERE H A FEES — 21nA > y? CoC p 30- D/2) BA — e 一 一 , 则 拒绝 Ho, 
则 接受 Ho. 


CR 二 
因为 >)， > 0, 所 以 存在 DC] D 122 0), #4 D>), D' = I, 
E Yao DX ,a = drm ms 

W Yo ~ N, CD DS DP) = Ny ,> Ys 

因此 ,检验 >) = >), 等 价 于 检验 >) = o 

3.4.2 多 个 正 态 总 体 协 方差 阵 的 检验 


BA AGES BAEAPIDIE N Qu D f = BO DG T DN Ge 332 33,0 
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HRA, i= 1,…,k。 从 个 总 体 分 别 取 n; 个 样本 
XQ, = (XE a XO)’ ,a = 1, ni = 1,0 yk 


HD n 一 为 总 样本 容量 。 


Ho: >}, = Dd, = = Dy Hi: >) 2i D, 至少 有 两 个 不 相等 
构造 统计 量 如 下 : 


2lni = (n— b)In 


sj 


1 1 
| 2/0, — Din n;—1 


= (n— k)ln|V|— 3) (nm, — DIn|V; | 
在 Hy 成 立 的 条 件 下 ,， — 21nX 近 似 服从 分 布 x/(1 一 DD) 
其 中 V 为 第 i 组 样本 协 方差 阵 ,= DV,f Tp DG - D. 


25 -3p—1 (wr 1 € 
SG-EDU DUM Bad pa Kf ni nj 


(2p? +3p—DR+1) 
6(p+1)(n—k) 
Bll 某 公 司 欲 了 解职 员 的 生活 状况 ,随机 抽查 15 名 员工 , 测 得 其 日 平均 面 对 电 脑 的 
小 时 数 (X,) .日 平均 运动 的 小 时 数 (X:)、 日 平均 睡觉 的 小 时 数 (Xs) ,数据 如 下 表 。 试 检验 
Hoes po = (7,0.5,7) Hii y dips 


9 n| = n; 一 … — gm, 


表 2 


E 
qn 
x 
x 
x 


«c © N aan m wn ee 
1 


= =e ee- 
Aà 0) Na o 
n e 
wo «o 
O = 
A A 


o 
A 
O0 O dq -3 000 OO O -310 wo o) I a DIP 


mn 
[91] 
nN DD 
o 
oo 


根据 题 意 ,采用 检验 统计 量 


BTP qe > 
"ST FOp,n— p) 


其 中 T? = (n— 1) [Ln (X — m) SVa (X — po) ] 
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n = 15,p = 3,0 (7,0,5,7),X = (6,950; 6757. 07) 5 


22.18  —2.03 一 0 95 0. 0544 0.0816 | — 0.0087 
S= |—2.63 2.01 2. 43 S~ = | 0.0816 0.7236 | — 0.0994 
— 0.95 2.43 16. 93 — 0.0087 — 0.0994 0.0728 


可 得 T? = 3.5946, t H p f :0. 4152, 

在 a = 0.05 的 条 件 下 ,接受 原 假设 。 

例 2 某 公 司 欲 了 解 中层 领 导 与 基层 职员 的 生活 状况 ,随机 抽查 10 名 中 层 领导 ( 表 3)， 
15 名 基层 员工 ( 表 4) ,分 别 测 得 其 日 平均 面 对 电 脑 的 小 时 数 (Xi,Y1)、 日 平均 运动 的 小 时 数 
(X,Y,) ,日 平均 睡觉 的 小 时 数 (X;,Y;), 数 据 如 下 表 , 设 两 组 样本 的 来 自 正 态 总 体 ,分 别 
记 为 : 

Xo; ~ NG,E) a= 1,7,10 
Yu ~ N: (m5) @ = ly 15 
Ho:p = po Hii A p 


#3 
序号 X, Xs X, 
1 1 0.7 8 
2 5 1 7 
3 6 0.8 8 
4 6 0.9 8 
5 9 0.4 9 
6 4.5 1 6 
7 7 0.7 6 
8 6. 6 0.7 7.5 
9 8 0.5 6 
10 6 0. 67 7.5 
表 4 
序号 Y, Y; Y: 
9 0.5 
7 
7 
8 0 
9 


o 00-10] Ci A € Ne 
~ 
2» 
— 


QO 0 0 -10 (^ 0 -1-1) 0 


mn 
e 
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第 三 章 


均值 向 量 和 协 方差 阵 的 检验 
续 表 
序号 Y, Y, Y; 
11 6 1 8 
12 4.9 1.2 7 
13 5.8 1.4 9 
14 0.4 6 
15 0.8 8 


采用 的 统计 量 为 : 
pa & ar lre — FCp,sn+m—pt+1) 
其 中 :T = Gt m—2)| | 
n 十 77 nm 
S= S +S: 


Si = X, (Xo XX Xo — X) 
a 一 1 


S, = X, Yo — WY, — Y 
a=! 


经 计算 := 10,m = 15,p = 3,X = (6. 21,0. 737,7. 3), Y = (6. 95,0. 67,7. 07) 


21.14  —2.13 2.17 22.18 — 2.03 — 0.95 
S = |—2,13 0.35 —0.53),S,—= ——2.603 2,01 2. 43 
21% — —0,593 9,06 — 0.95 2.48 16. 93 

43.34 — 4.76 1.22 

S = S, +S, = 4.76 2.36 1.81 

1. 22 1.91 26.53 

0. 0306 0.0667 | — 0.0062 

S! = | 0.0667 0.5951 | — 0.0458 


— 0.0062 — 0.0458 0.0413 
T? = 2.173981, F = 0. 661646 , it f] p {È :0. 58405 
在 a = 0.05 的 条 件 下 ,接受 原 假设 。 


本 章 思 考 与 练习 


1. 试 列举 可 运用 多 元 均值 检验 的 实际 问题 。 
2. 试 述 多 元 统计 分 析 中 的 各 种 均值 向 量 和 协 差 阵 检验 的 基本 思想 与 步骤 。 
3. 以 下 是 两 家 上 市 公司 某 年 的 部 分 收益 性 及 成 长 性 财务 指标 : 
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公司 简称 深 能 源 A 
净 资 产 收益 率 /% 16. 85 
总 资产 报酬 率 / 06 12. 35 
资产 负债 率 /% 42. 32 
总 资产 周转 率 / % 0.37 
流动 资产 周转 率 / % 1.78 
已 获 利息 倍数 /% 7.18 
销售 增长 率 /% 45. 73 
资本 积累 率 / % 54. 54 


试 在 显著 性 水 平 a = 0.05 的 条 件 下 ,检验 两 家 公司 的 指标 向 量 是 否 有 差异 。 


第 四 章 
聚 类 分 析 


SVE = RAR Ar 


RAH (cluster analysis) 是 研究 对 样品 或 指标 进行 分 类 的 一 种 多 元 统计 方法 。 它 把 
分 类 对 象 按 一 定 规则 分 成 若干 类 ,这些 类 非 事先 给 定 的 ,而 是 根据 数据 特征 确定 的 。 在 同一 
类 中 这 些 对 象 在 某 种 意义 上 趋向 于 彼此 相似 ,而 在 不 同类 中 趋向 于 不 相似 ,国内 也 有 人 称 它 
为 群 分 析 点 群 分 析 、 簇 群 分 析 等 .与 多 元 分 析 的 其 他 方法 相 比 ,该 方法 较为 粗糙 ,理论 上 还 
不 完善 ,但 应 用 方面 取得 了 很 大 成 功 。 通 常 , 人 们 把 聚 类 分 析 与 回归 分 析 判别 分 析 称 为 多 元 
分 析 的 三 大 方法 。 

聚 类 分 析 给 人 们 提供 了 丰富 多 彩 的 方法 进行 分 类 ,有 系统 聚 类 法 ` 有 序 样 品 聚 类 法 L3] 
态 聚 类 法 .模糊 聚 类 法 、 图 论 聚 类 法 等 .本 章 主 要 介绍 两 种 常用 的 聚 类 分 析 方 法 ,一 种 是 系统 
聚 类 法 (Hierarchical Cluster Analysis 也 称 层次 聚 类 法 ) , 另 一 种 是 快速 聚 类 分 析 (K-Means 
Cluster Analysis 也 称 K- 均值 聚 类 法 ) .其 中 系统 聚 类 分 析 根 据 聚 类 的 对 象 不 同 分 成 两 种 : 
一 种 是 对 样品 (样本 ) 的 分 类 , 称 为 Q 型 , 男 一 种 是 对 变量 (指标 ) 的 分 类 , 称 为 R 型 。 


4.1 E 高 


在 介绍 聚 类 方法 之 前 , 先 引出 两 样品 之 间距 离 的 度量 。 
设 有 个 样品 ,每 个 样品 测 得 p 项 指标 (变量 ) ,资料 矩阵 为 : 


Y; Y; vem Y, 

Xi Xp X12 Ut Lp 

X 一 Xs | Xn X22 et X25 
Ka lia du 695 Zy 


其 中 ,zj (i 二 1… 3j — let. 为 第 i 个 样品 的 第 j 个 指标 得 观测 值 ; 

第 i 个 样品 X; 为 矩阵 第 i 行 所 描述 ,任何 两 个 样品 Xi,X 之 间 的 相似 性 ,可 以 通过 和 矩阵 
X 的 第 上 行 与 第 h 行 的 相似 程度 来 刻画 ，; 

第 ;个 变量 Y; 为 矩阵 的 第 7 列 所 描述 ,任何 两 个 变量 Y, ,Yi 之 间 的 相似 性 ,可 以 通过 甜 
E X 的 第 & 列 与 第 h 列 的 相似 程度 来 刻画 。 

由 于 样品 分 类 和 指标 分 类 从 方法 上 看 基本 是 一 样 的 ,所 以 两 者 就 不 严格 分 开 说 明 ,在 这 
里 只 介绍 两 个 样品 间距 离 的 度量 。 

4.1.1 聚 类 数据 的 标准 化 处 理 

TE REOS A Br rp ERAS ER Gro. 的 选择 是 十 分 重要 的 , 它 直 接 影响 分 类 结果 的 准确 性 
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= P x E 
-一 
" 


和 可 靠 性 . 聚 类 要 素 的 选择 可 根据 相关 的 专业 的 知识 及 因子 分 析 , 主 成 分 分 析 等 统计 方法 确 
定 . 这 里 ,我们 假定 聚 类 的 要 素 已 经 选择 .被 聚 类 的 对 象 常常 是 多 个 要 素 构 成 的 ,不 同 要 素 的 
数据 往往 具有 不 同 的 单位 和 量 纲 ,其 数值 的 变异 可 能 是 很 大 的 ,这 就 会 对 分 类 结果 产生 影 
响 . 因 此 当 分 类 要 素 的 对 象 确定 之 后 ,在 进行 聚 类 分 析 之 前 ,首先 要 对 聚 类 要 素 进 行 数 据 
处 理 。 

在 聚 类 分 析 中 ,常用 的 聚 类 要 素 的 数据 处 理 方法 有 如 下 儿 种 : 

CD 总 和 标准 化 ,分 别 求 出 各 聚 类 要 素 所 对 应 的 数据 的 总 和 ,以 各 要 素 的 数据 除 以 该 要 
素 的 数据 的 总 和 , 即 


T= = 1 nj = 1,0) 
DIET 
i=l 
(2) 标准 差 标 准 化 , 即 
pyy— COUR (iol, nj = 1,.,p) 


其 中 :zx)，,s; HEj 个 变量 的 样本 均值 ,样本 标准 差 。 
(3) 极 大 值 标准 化 , 即 


G = 1.4.2 8j = lees p) 


" — maxír;) 
(4) 极 差 标 准 化 , 即 
iy — min{ x, y 
75 7 max{x, } — min{z, } d deca = Venu 


4.1.2 样品 距离 的 定义 

如 果 把 个 样品 (X 中 的 n 个 行 ) 看 成 p 维 空间 中 的 个 点 , 则 第 i 样品 X; 与 第 7 样品 
X, 之 间 的 距离 记 为 djo 

常见 的 距离 有 : 


(1) 绝对 值 距离 :dj; = D>) | r — z | 


p 
(2) 欧式 距离 :dy — |D a — r)? 
t=! 


b 
(3) 平方 欧式 距离 :di = SG — x; 
(4) 切 比 雪夫 距离 :di = Max | x, — xy | 


b 
(5) BARE (Minkowski) 距离 :d; = [ >) | x 一 zx J 
当 g 二 1,2 时 ,为 绝对 值 . 欧 式 距 离 ; 若 趋 近 无 穷 时 , 则 为 切 比 雪夫 距离 ,。 明 氏 距 离 在 实际 
的 运用 很 多 ,但 有 一 些 缺 点 。 例 如 观测 值 的 量 纲 问题 ,因此 改进 得 到 以 下 的 距离 : 
xr -— 1 ? | Xà Lie | 
(6) 兰 氏 距离 :dj (LO us Ge, Fa) 
兰 氏 距离 有 助 于 克服 各 指标 之 间 量 纲 的 影响 ,但 没有 考虑 指标 的 相关 性 ,为 了 同时 克服 


24 


这 两 个 缺点 ,我 们 引入 马 氏 距离 的 概念 : 
C) 马 氏 距离 :d; (M) = (X; — X V'S (X, — X;) 
其 中 :5 表示 样本 的 协 差 阵 , 即 : 


> = (Coy) pxps Oi 一 L Sta — x) Cry — T) isj =l, p 
i=l 


n—1 
n 


n 
zx 3 . EX cest dL 
ndr! Tao Tj pr ctu 
a a 


zm n 


这 里 X, 为 样品 X, B3 p AIER LES F6] fk «BIS ES EY SE i 行 向 量 ,X; 类 似 。 


4.2 系统 聚 类 法 


正如 样品 之 间 的 距离 可 以 有 不 同 的 定义 方法 一 样 , 类 与 类 之 间 的 距离 也 有 各 种 定义 ,. 例 
如 可 以 定义 类 与 类 之 间 的 距离 为 两 类 之 间 最 近 样 本 的 距离 ,或 者 定义 为 两 类 之 间 最 远 样本 
之 间 的 距离 等 等 .类 与 类 之 间 用 不 同 的 方法 定义 距离 ,就 产生 了 不 同 的 系统 聚 类 方法 .本 节 
介绍 常用 的 四 种 方法 , 即 最 短 距 离 法 .最 长 距离 法 .重心 法 、 类 平均 法 。 系 统 聚 类 分 析 尽 管 方 
法 很 多 ,但 归 类 的 步骤 基本 上 是 一 样 的 ,所 不 同 的 仅 是 类 与 类 之 间距 离 的 不 同 定义 方法 。 

系统 聚 类 法 的 基本 过 程 :首先 将 nn 个 样品 看 成 nn 类 (一 个 类 包含 一 个 样品 ) ,然后 将 性 质 
最 接近 的 两 类 合并 成 一 个 新 类 ,我 们 得 到 nn 一 1 类 ,再 从 中 找 出 最 接近 的 两 类 加 以 合并 成 了 
一 2 类 ,如 此 下 去 ,最 后 所 有 的 样品 均 在 一 类 ,将 上 述 并 类 过 程 画 成 一 张 图 ( 称 为 聚 类 图 ), 根 
据 实际 的 研究 目的 , 便 可 决定 分 多 少 类 ,每 类 各 有 什么 样品 。 

以 下 用 d; 表示 样品 X; 5 X; 之 间 的 距离 ,用 DO.) 表示 类 G, MG, 的 距离 。 

4.2.1 类 间 的 距离 

下 边 是 一 些 类 与 类 之 间距 离 的 定义 : 

(1) 最 短 距离 法 

定义 距离 :D(p,g) = Min{d;:X; € G,,X; € G,} 

等 于 G, FIG, 最 为 邻近 的 两 个 样品 之 间 的 距离 。 

(2) 最 长 距离 法 

定义 距离 :D(p,g) = Max{d;:X; € G,,X; € G,} 

等 于 G, AG, 最 远 的 两 个 样品 之 间 的 距离 

(3) 重心 法 

定义 距离 平方 :D’ (p,q) = dis, 

等 于 G, AG, 两 个 重心 之 间 的 距离 ,这 里 ,XX, = SIX/n.X, = >X/msns,m 分 别 G。 

XEG, XEG, 

和 G, 的 元 素 的 个 数 。 

(4) 类 平均 法 

定义 距离 平方 :D? (p,q) — —— S) Sd 


er 
plax eG,X, eG, 


等 于 G, AG, 中 任意 两 个 样品 距离 的 平均 ,其 中 msn, 3G, G, 的 样品 数 。 
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多 元 f it 48, ie 5 3: 验 
a 


4.2.2 四 种 系统 聚 类 法 


系统 肾 类 分 析 尽 管 方 法 很 多 ,但 归 类 的 步骤 基本 是 一 样 ,所 不 同 的 仅 是 类 与 类 之 间 的 距 
离 有 不 同 的 定义 方法 。 
(一 ) 最 短 距离 法 
最 短 距离 法 类 与 类 之 间 的 距离 :D(p,g) = Min{d,:X; € GX; € G,} 
KREG, 5G, 合并 成 一 个 新 类 记 为 G,, 则 任 一 类 G 与 G, HEB: 
D(k,r) = Minid;:X, € GX; € G,} 
= MinlMin(d, X, € Gi, X; € G,)J, Min(dg X, € G, X, € G,)) 
= Mini Dk. £0 , DCR. qj 
最 短 距离 法 聚 类 的 步骤 如 下 : 
(D 定义 样品 之 间 的 距离 ,计算 样品 两 两 距离 ,得 一 距离 阵 记 为 Do ,开始 每 个 样品 自 成 
一 类 ,显然 这 时 D; = dy 
(2) FR Do 的 非 对 角 线 最 小 元 素 , 设 为 Du WM G, MG, 合并 成 一 个 新 类 , 记 为 G,， 
WW G, = {G,.G,} 
(3) 给 出 计算 新 类 与 其 他 类 的 距离 公式 
D, = Min(D,, Du? 
将 Do, 中 第 p,g 行 及 第 p,q 列 用 上 面 的 公式 并 成 一 个 新 行 新 列 ,新 行 新 列 对 应 G,. ,所 
得 的 矩阵 记 为 Do 
(4) 对 Dao; 重复 上 述 对 Do 的 (2)(3) 两 步 得 到 Do ;如 此 下 去 ,直到 所 有 的 元 素 并 成 一 
类 为 止 。 
下 边 通过 一 个 例子 说 明 各 种 聚 类 法 。 
例 1 为 了 研究 黑龙 江 . 内蒙古、 江苏, 广东 ,广西 5 个 省 份 2010 年 第 三 产业 的 分 布 情 
DL ,根据 调查 资料 做 类 型 划分 。 指 标 名 称 及 原始 数据 见 表 1。 资 料 来 源 中 国 统计 年 鉴 (2011 
年 
Xi : 交通 运输 .仓储 和 邮政 业 
X: 批发 和 零售 业 
Xs: 住宿 和 餐饮 业 


X,: 金融 业 

Xi : 房地产 业 

Xs: 其 他 (第 三 产业 ) 

X1 2010 年 5 个 省 份 第 三 产业 的 生产 总 值 ( 亿 元 ) 
X, X; X; X; 

黑龙 江 469. 31 880. 83 240. 13 1612.3 
内 蒙古 875.61 1052 332. 24 | 1298. 5 

江苏 1768. 3 4447. 5 710. 98 5497. 8 

广东 1825. 29 4647.8 1074. 9 7690.9 

广西 480. 17 656. 83 241. 34 1214.5 
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第 四 章 


聚 类 分 析 
(1) 采用 极 差 标准 化 数据 : 
X, X: X; Xi; X; X; 

黑龙 江 1 0. 9439 1 1 0.9754 0. 9386 
内 蒙古 0.70036 0. 901 0. 8897 0.9754 1 0. 9878 

江苏 0. 04203 0.0502 0. 4359 0. 2332 0. 085 0. 3386 

广东 0 0 0 0 0 0 

广西 0. 99199 1 0. 9986 0. 9594 0. 9615 1 


(2) 再 计算 5 个 省 份 之 间 的 平方 欧 氏 距离 ,用 Do 表示 5 个 省 份 两 两 的 距离 矩阵 : 


0 0.1074 3.7753 5.7233 0.0088 
0 3.1726 5.021 0.1086 
D, = 0 0.3706 3.854 
0 5. 8259 
0 


距离 矩阵 D, = (di sss ,Do FE XT PR FEE :d; = dj ,其 中 :di 代表 第 i 个 省 份 与 第 j 个 省 
份 数据 的 欧 氏 距离 ,例如 :dis 代表 黑龙 江 样 品 与 内 蒙古 样品 的 欧 氏 距离 。 

(3) JF 8 628 

CD 初始 化 

开始 5 类 :G = { 黑 龙 江 1} .G. 一 {内 蒙古 2)、G; = (LH 3} .G, = 二 {广东 4}、G;s = UT 
西 5) ,由 类 间 最 短 距离 法 的 定义 ,这 时 : 

D, Ci, j) = dj 

其 中 :Do (i,j) 表示 G;,G; 的 类 间距 离 。 

@ 合并 类 

D, 中 非 对 角 线 的 最 小 的 元 素 是 D, (1,5) = 0. 0088, 故 将 类 G, AIG; 合并 成 一 新 类 G = 
{1,5), 接 下 来 继续 计算 G 5 GG ,Gi 之 间 的 距离 。 


ij = 1.5.5 


© 计算 新 类 距离 矩阵 
利用 
D,(6,j) = Min{D.(1,j),Do(5.j)} 了 一 2,3,4 
得 到 的 新 距离 矩阵 
GG G; G, 
G 0 0.1074 37753 5.7233 
D, = |G O 3.1726 5,021 
G; 0 . 0.3706 
G, 0 


在 上 表 中 , 找 出 非 对 角 线 的 类 间 最 小 距离 :Di (Ce G2) = 0.1074, 合 并 类 G = (1,5) 与 
类 G, = (2) 得 到 新 类 :C; = (1.5.2) ,再 利用 类 间 最 小 距离 法 公式 : 


D:(7,j) = Min{D,(2,j),D: (6,7) } j — 3.4 
G; G; G; 
G; 0 3.1726 5.021 
D; 
G; 0 0. 3706 
Gi, 0 
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类 间 的 最 小 距离 :D: (G; .G,) = 0.3706 ,合并 类 G;,G, 得 到 新 类 :Gs = (3.4). 

此 时 ,我 们 有 两 个 不 同 的 类 :C; = {1,5,2) ,Gs = (3,4) ,两 者 合并 成 一 个 大 类 的 聚 类 系 
统 。 

最 后 ,根据 计算 的 过 程 , 可 得 到 谱系 聚 类 图 如 下 : 


广西 5 J a ere 
内 蒙古 2 ”一 | 
江苏 Be 
广东 a nml 


图 1 


从 图 1 可 看 出 : 若 分 成 二 类 : (黑龙 江 , 广 西 ,内 蒙古 }{ 江 苏 , 广 东 ); 若 分 成 三 类 : {黑龙 
江 , 广 西 ),{ 内 蒙古 }, {江苏 ,广东 }。 
聚 类 分 析 是 一 种 探索 性 方法 ,确定 分 类 数 的 问题 是 迄今 为 止 未 完全 解决 的 问题 之 一 。 实 
际 应 用 中 ,主要 根据 研究 的 目的 ,从 实用 的 角度 出 发 ,选择 合适 的 分 类 。 如 本 例 若 研究 的 对 象 
是 第 三 产业 发 达 与 第 三 产业 不 发 达 地 区 的 研究 ,那么 可 分 成 二 类 ;车 研究 的 对 象 是 :发 达 , 欠 
发 达 , 落 后 , 则 可 分 成 三 类 。 
(二 ) 最 长 距离 法 
最 长 距离 法 类 与 类 之 间 的 距离 :D(p,g) = Mazfdi:X € GX; € G,}. 
最 长 距离 法 与 最 短 距离 法 的 并 类 步骤 完全 一 样 ,也 是 将 各 样品 先 自 成 一 类 ,然后 将 非 对 
角 线 上 最 小 元 素 对 应 的 两 类 合并 ,直至 所 有 的 样品 全 归 为 一 类 为 止 。 所 不 同 的 是 类 与 类 之 间 
的 距离 定义 不 同 。 设 某 一 步 将 C, FG, 合并 为 G,, 则 任 一 类 G 5G, 的 距离 用 最 长 距离 公式 
为 : 
D(k,r) = Maxid;:X; € GX; € G,} 
= Max{Max({d,:X, € G,.X; € G,},Max{d;:X; € G,.X; € G,}} 
Max{D(k, p). D(k,q)} 
将 例 1 应 用 最 长 距离 法 如 下 : 
0 0.1074 3.7753 5.7233 0.0088 
0 3.1726 5.021 0.1086 


Il 


Q D, — 0 0.3706 3.854 
0 5. 8259 
0 


D, 中 非 对 角 线 的 最 小 的 元 素 是 D,(1,5) = 0. 0088 , 故 将 类 G AIG; 合并 成 一 新 类 G, = 
{1,5}, 接 下 来 按 最 长 距离 法 计算 G 5 GG Gi 之 间 的 距离 。 


Ge G: G; Gy 
Gs 0 0.1086 3.854 5.8259 
Q D; = |G, 0 3.1726 5.021 
G; 0 0. 3706 

G, 0 
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找 出 非 对 角 线 的 类 间 最 小 距离 1D. (Gs ,G2 ) —uQ. 1086 ,合并 类 Gs = {1,5} 与 类 G: = 
(2) 得 到 新 类 :G; = {1,5,2}, 


G e Gi 
G; 0 3.854 5.8259 
© D, = 
G, 0 0. 3706 
G. 0 


类 间 的 最 小 距离 :D:(G: ,G, ) = 0. 3706 ,合并 类 G: ,G, 得 到 新 类 :Gs = (13,4)。 
此 时 ,我 们 有 两 个 不 同 的 类 :G, = 11,5,2),Gs = (3.4) ,两 者 合并 成 一 个 大 类 的 聚 类 系 
统 ,其 聚 类 图 如 下 ,与 最 短 距 离 法 分 类 情况 一 致 ,只 是 并 类 的 距离 不 同 。 


黑龙 江 b =r] 
内 蒙古 2 ”一 | 
江苏 3 _ -| 
E 
图 2 
(3) 重心 法 


重心 法 类 与 类 之 间 的 距离 平方 :Di (pig) = diss, ,重心 法 定义 两 类 之 间 的 距离 就 是 两 
类 重心 之 间 的 距离 。 
将 例 1 应 用 重心 法 如 下 : 
0 0.1074 3.7753 5.7233 0.0088 
0 3.1726 5.021 0.1086 


@ D, = 0 0.3706 3.854 
0 5. 8259 
0 


D, 中 非 对 角 线 的 最 小 的 元 素 是 D,(1,5) = 0. 0088, MOK G, AIG; 合并 成 一 新 类 Gu = 
11,5} ,其 重心 :zs = (0. 995996,0. 97194,0. 99928,0. 97968,0. 96844,0. 96928} , 接 下 来 按 
重心 法 计算 Gs 5 G, Nes ,Or 之 间 的 距离 。 


ao G i G, 
G 0 0.1058 3.8124 5.7724 
© D, = |G 0 3.1726 5.021 
Gi 0 0. 3706 

G 0 


找 出 非 对 角 线 的 类 间 最 小 距离 :Di CG, G) = 0. 1058 ,合并 类 Gs = (145) 528 G, 
{2} 得 到 新 类 :G, = {1,5,2) ,计算 其 重心 : 
x, = {0.89745,0. 94829 ,0. 96273,0. 97826,0. 96896,0. 97545} 
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G; G; G; 
G; 0 3.5756 5.4984 
© D, = 
G; 0 0. 3706 
G, 0 


类 间 的 最 小 距离 £D» (G; Gi) = 0. 3706 ,合并 类 G: Gi 得 到 新 类 :Gs = {3,4}. 
此 时 ,我 们 有 两 个 不 同 的 类 :G; = {1,5,2) ,Gs = (3,4) ,两 者 合并 成 一 个 大 类 的 聚 类 系 
统 。. 其 聚 类 图 如 下 ,与 前 边 两 个 分 类 情况 一 致 ,只 是 并 类 的 距离 不 同 。 


黑龙 江 L i 
广西 5 A FF 一 一 二 
内 蒙古 2 — | 
广东 和 
图 3 
(4) 类 平均 法 


类 平均 法 类 与 类 之 间 的 距离 平方 :D*(p,9) = — ST Sd) , 它 定 义 两 类 之 间 的 距离 
p ?$X,€G,X; EG 
平方 为 这 两 类 元 素 两 两 之 间距 离 平方 的 平均 。 
将 例 1 应 用 类 平均 法 如 下 
0 0.1074 3.7753 5.7233 0.0088 
0 3.1726 5.021 0.1086 


D D, = 0 0.3706 3.854 
0 5. 8259 
0 


D, 中 非 对 角 线 的 最 小 的 元 素 是 D,(1,5) = 0. 0088, 故 将 类 G, AIG; 合并 成 一 新 类 Gu = 
(1.5) , 接 下 来 按 类 平均 法 计算 Gs 与 Cs ,Cs ,Gs 之 间 的 距离 。 


Gs G: G; G, 
Ge 0 0.108 3.8148 5.7738 

© D; = |G, 0 3.1726 5.021 
G; 0 0. 3706 
G, 0 


找 出 非 对 角 线 的 类 间 最 小 距离 sD, (Ge ,G, ) = 0. 108 ,合并 类 G, = (1,5) GAG, = (2) 
得 到 新 类 :G， = {1,552}, 


G G G, 
G, 0 6135 5.535 

e R 0 0.3706 
|G; 0 


类 间 的 最 小 距离 :D: (G; G1) = 0. 3706 ,合并 类 Cs ,G4 得 到 新 类 :Gs = (3.4). 


此 时 ,我 们 有 两 个 不 同 的 类 :G; = (1,5,2} ,Gs = (3.4) ,两 者 合并 成 一 个 大 类 的 聚 类 系 
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统 。 其 聚 类 图 如 下 。 
黑龙 江 ERR 
广西 5 H ee 
内 蒙古 2 — | 
广东 d^ e————— JJ 


图 4 


聚 类 分 析 所 使 用 方法 的 不 同 ,常常 会 得 到 不 同 的 结论 .不 同 研究 者 对 于 同一 组 数据 进行 
聚 类 分 析 ,所 得 到 的 聚 类 数 未 必 一 致 。 ELECTRO MUR Ride 9 2 sani. 


4.3 K- HERRA 


K- 均值 聚 类 法 是 一 种 非 谱系 聚 类 法 , 它 是 把 样品 聚集 成 & 个 类 的 集合 。 类 的 个 数 & 可 以 
预先 给 定 或 者 在 聚 类 过 程 中 确定 .该 方法 可 用 于 比 系统 聚 类 法 大 得 多 的 数据 组 。 如 果 观 察 值 
的 个 数 多 或 文件 非常 庞大 (通常 观察 值 在 200 个 以 上 ) , 则 宣 采 用 K- 均值 聚 类 法 。 

K- 均值 聚 类 法 算法 的 工作 原理 :算法 首先 随机 从 数据 集中 选取 个 点 作为 初始 聚 类 中 
心 , 然 后 计算 各 个 样本 到 聚 类 中 的 距离 ,把 样本 归 到 离 它 最 近 的 那个 聚 类 中 心 所 在 的 类 。 计 
算 新 形成 的 每 一 个 聚 类 的 数据 对 象 的 平均 值 来 得 到 新 的 聚 类 中 心 , 如 果 相 邻 两 次 的 聚 类 中 
心 没有 任何 变化 ,说明 样本 调整 结束 , 聚 类 准则 琐 数 已 经 收敛 .本 算法 的 一 个 特点 是 在 每 次 
迭代 中 都 要 考察 每 个 样本 的 分 类 是 否 正确 。 若 不 正确 ,就 要 调整 ,在 全 部 样本 调整 完 后 ,再 修 
改 聚 类 中 心 ,进入 下 一 次 迭代 。 如 果 在 一 次 迭代 算法 中 ,所 有 的 样本 被 正确 分 类 , 则 不 会 有 调 
整 , 聚 类 中 心 也 不 会 有 任何 变化 ,这 标志 着 已 经 收敛 ,因此 算法 结束 。 

K-means 聚 类 算法 的 一 般 步 又: 

(1) 从 nn 个 数据 对 象 任意 选 择 个 对 象 作为 初始 RKPD; 

(2) 根据 每 个 聚 类 对 象 的 均值 (中 心 对 象 ) ,计算 每 个 对 象 与 这 些 中心 对 象 的 距离 ;并 根 
据 最 小 距离 重新 对 相应 对 象 进行 划分 ; 

(3) 重新 计算 每 个 (有 变化 ) 聚 类 的 均值 (中 心 对 象 ); 

(4) 循环 (2) 到 (3) 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 

样品 的 最 终 聚 类 在 某 种 程度 上 依赖 于 最 初 的 划分 ,或 种 子 点 的 选择 ,为 了 检验 聚 类 的 稳 
定性 ,可 用 一 个 新 的 初始 分 类 重新 检验 整个 聚 类 算法 。 如 果 最 终 分 类 与 原来 一 样 , 则 不 必 再 
行 计算 ;否则 , 须 另 行 考 虑 聚 类 算法 。 


本 章 思 考 与 练习 


1. 试 述 系统 聚 类 的 基本 思想 。 
2. 在 进行 系统 聚 类 时 ,不同 的 类 间距 离 计 算 方 法 有 何 区 别 。 
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3. 试 述 系统 聚 类 法 和 开 均值 法 的 异同 。 
4. 下 表 给 出 了 菜农 业 生态 经 济 系统 各 个 区 域 单 元 的 有 关 数 据 , 试 运用 系统 聚 类 法 ,对 该 
农业 生态 经 济 系统 进行 聚 类 分 析 : 


经 
V | nega | ABE | gma | 农民 人 均 | ARR VAE 耕地 占 十 | 果园 与 林 | 灌溉 田 占 
| | 面积 zs/ | RM nip c 产量 xs/ | A gy | 地 面积 比 | 地 面积 之 | 耕地 面积 
号 hm? in GE * A7DKCkg * A7 n / V 率 z?/% | Wrs/% |Z xs/ 96 
I6/ 70 
L | 
1 363. 912 0. 352 16. 101 192. 11 295.34 26. 724 18. 492 2.231 26. 262 
2 141. 503 1. 684 24.301 |1 752.35 452. 26 32. 314 14. 464 1. 455 27.066 
3 100. 695 | 1.067 65.601 |1 181.54 270.12 18. 266 0. 162 7.474 | 12. 489 
4 143.739 1. 336 33.205 |1 436. 12 354.26 17. 486 11. 805 1. 892 17. 534 
5 131. 412 1. 623 16.607 ]|1 405.09 586.59 40. 683 14. 401 0. 303 22. 932 
6 68. 337 2.032 | 76.204 |1 540.29 216.39 8. 128 4. 065 0.7011 4. 861 
7 95. 416 0. 801 71. 106 926. 35 291.52 8.135 4. 063 0. 012 4. 862 
8 62.901 1. 652 73.307 |1 501.24 225.25 ism | 2.645 0. 034 3.201 
9 86. 624 0. 841 68. 904 897.36 196. 37 16. 861 Jr 5.176 0. 055 6. 167 
10 91. 394 0. 812 66. 502 911. 24 226.51 18. 279 5. 643 0. 076 4.477 
11 76.912 0. 858 50. 302 103.52 217.09 19. 793 4. 881 0. 001 6. 165 
12 51.274 1.041 | 64. 609 968. 33 181. 38 4. 005 | 4. 066 0. 015 5. 402 
13 68. 831 0. 836 62. 804 957. 14 194. 04 9. 11 4. 484 | 0. 002 5.79 
14 77. 301 [ 0. 623 60. 102 824. 37 188. 09 19. 409 5.721 5.055 8. 413 
15 76.948 1. 022 68. 001 1255. 42 211. 55 11. 102 3.133 0.01 3.425 
16 99. 265 0. 654 60. 702 1251. 03 220.91 4. 383 4. 615 0. 011 5.593 
17 118. 505 0. 661 63. 304 1246. 47 242. 16 10. 706 6. 053 0. 154 8. 701 
18 141. 473 0. 737 54. 206 814. 21 193. 46 11. 419 t 6. 442 0. 012 12.945 
3.46 | 1 

19 137. 761 0. 598 55.901 1124.05 228.44 9. 521 7.881 0. 069 12. 654 
20 117. 612 1. 245 54. 503 805.67 1795.23 18. 106 5. 789 0. 048 8. 461 
21 122. 781 0. 731 49. 102 1313. 11 236. 29 26. 724 7.162 0.092 10. 078 
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第 五 革 ”判别 分 析 


5.1 判别 分 析 简 介 


判别 分 析 (discriminant analysis) 又 称 " 分 辨 法 ”, 根 据 已 知 类 别 的 样本 所 能 提供 的 信 
息 ,总 结 出 分 类 的 规律 性 ,建立 判别 公式 和 判别 准则 ,判别 新 的 样本 点 所 属 类 型 ,是 判别 个 体 
所 属 群体 的 一 种 统计 方法 。 

聚 类 分 析 与 判别 分 析 都 是 多 元 统计 中 研究 事物 分 类 的 基本 方法 ,两 者 有 何 区 别 ? 

主要 不 同 点 就 是 ,在 聚 类 分 析 中 一 般 人 们 事先 并 不 知道 或 一 定 要 明确 应 该 分 成 几 类 ,全 
根据 数据 来 确定 。 而 在 判别 分 析 中 ,至 少 有 一 个 已 经 明确 知道 类 别 的 “训练 样本 ”, 利 用 这 些 
数据 集 ,就 可 以 建立 判别 准则 ,并 通过 预测 变量 来 对 未 知 类 别 的 观测 值 进 行 判别 。 

判别 分 析 的 基本 思路 : 设 有 总 体 G1 .Gs;、…、Gi ,根据 样本 — 建立 判别 法 则 (判别 函数 ) 
—> 判别 新 的 样品 属于 哪 一 个 总 体 . 判 别 新 样本 所 属 类 别 分 类 数目 一 般 根据 研究 目的 而 定 。 

判别 函数 的 一 般 形式 为 


其 中 ,Y 为 判别 分 数 ( 判 别 值 ); 

LiLo Ln 为 反映 研究 对 象 特 征 的 变量 ; 

ai «as ***a, 为 各 变量 的 系数 , 称 为 判别 系数 

判别 分 析 内 容 很 丰富 ,方法 很 多 .判断 分 析 按 判别 的 总 体 数 来 区 分 ,有 两 个 总 体 判别 分 
析 和 多 总 体 判 别 分 析 ; 按 区 分 不 同 总 体 所 用 的 数学 模型 来 分 ,有 线性 判别 和 非 线 性 判别 ; 按 
判别 时 所 处 理 的 变量 方法 不 同 , 有 逐步 判别 和 序 贯 判别 等 .判别 分 析 可 以 从 不 同 角度 提出 问 
题 , 因 此 有 不 同 的 判别 准则 ,如 马 氏 距离 最 小 准则 Fisher 准则 .平均 损失 最 小 准则 、 最 小 平 
方 准则 .最 大 似 然 准则 .最 大 概率 准则 等 等 , 按 判 别 准则 的 不 同 又 提出 多 种 判别 方法 。 

本 章 仅 介绍 常用 的 几 种 判别 分 析 方 法 :距离 判别 法 、Fisher 判别 法 、Bayes 判别 法 和 逐 
步 判 别 法 。 


5.2 距离 判别 法 


距离 判别 的 基本 思想 :首先 根据 已 知 分 类 的 数据 ,分 别 计 算 各 类 的 重心 , 即 分 组 (类 ) 均 
值 ,距离 判别 准则 是 对 于 任 给 一 次 观测 值 , 若 它 与 第 ;类 的 重心 距离 最 近 ,就 认为 它 来 自 第 i 
类 ,因此 ,距离 判别 法 又 称 为 最 邻近 方法 (nearest neighbor method ) ,距离 判别 法 对 各 类 总 体 
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的 分 布 没 有 特定 的 要 求 ,适用 于 任意 分 布 的 数据 资料 。 

5.2.1 两 组 距离 判别 

设 有 两 组 总 体 G, A G: ,相应 两 个 样品 容量 为 mm ,ns 的 样品 ,从 两 个 总 体 分 别 取 得 p 维 观 
察 值 ， (Gi Xi? Xi? ). 


n 
1 

va , 

Xi = > tel i = l; p 
t=1 


xo = ly 


ni G 


xo» 一 lY 


n»? imi 


XO = »Xi/n.i = l.p 
i=] 


每 个 样品 观测 p 个 指标 得 观测 数据 如 下 : 
则 总 体 G 的 样本 数据 为 : 


(1) 


(1) .C(D (1 
Xi Ti Tiz Tip 
(1) (1) (D (D 
X; X21 X22 Ut Tp 


1 
(D ES (1) 《1) 
AL pes io Uo X» 


ii: 


X? 一 Gri? rj, a y 
总 体 Go 的 样本 数据 为 ， 
XP fzr ee 


(2) (2) (2) (2) 
X; Xn T22 Ut X2, 


[4/4 (2) (2) (2) 
A ni ae C 3.5 


id: 


XU = GP up esu 
其 中 :Xm xo 列 向 量 , 例 如 :X — Gi exi? zi) ,本 章 随后 章节 皆 如 此 ,不 再 说 明 。 
现任 取 一 个 新 个 体 ,观察 值 X 为 X = (zz ,zi), 问 X 应 判 归 于 哪 一 类 ? 
HE X3) 5G;.G. 总 体 的 距离 ,分 别 记 为 D(X,G1)、D(X,G;), 按 距离 最 近 准 则 
判别 归 类 , 则 可 写成 : i 
XEG D(X,G1) < D(X,G,) 
XEG  DOGGOI DCG) 
X 待 判 D(X,G,) = D(X,G;) 
如 果 上 距离 定义 采用 欧 氏 距离 , 则 可 计算 出 
D(X,G)= JUX X" Y (X-X?) 
D(X,G:)= (X —X9?y(X—X9) 
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然后 比较 DCX Gi ) A DCX, Gi ) 大 小 , 按 距离 最 近 准 则 判别 归 类 。 


第 五 章 
判别 分 析 


实际 应 用 中 ,考虑 到 判别 分 析 常 涉及 多 个 变量 , 且 变 量 之 间 可 能 相关 , 故 多 用 马 氏 距离 。 


马 氏 距离 公式 为 : 
D (Xs = (X—p XC ew we) 
D (X.G)= (X—p® OUP (x p?) 
其 中 jy ?3、》)”、》)” 分 别 是 Gl 和 Gs 的 均值 向 量 和 协 差 阵 。 
这 时 的 判别 准则 分 两 种 情况 给 出 : 
(1) 385 791" e YI ”= 时 


D? (X.G: ) 一 D (X.G) 


- (X — uo yc y^! (X — yu? j= (X — p” MU y (X — p”) 


l (2) / 2 
= 2[X 3 Cu” Hu ) | k» Cu? — u?) 


ida y a? doa = Cu? =p) 
id W(X)= (X—,0' Sl. (gu — pp? J= (X — na 
= a, (2 nu?» | ees | a5 (xy p”) 


于 是 判别 准则 写成 : 


X€G, W(x) 20 
X €G, W(x) <0 
X 待 判 W(x) =0 


TA LRL RF WX) KE, AE W(X ) 被 称 为 判别 函数 ,由 于 它 是 线性 函数 ,又 称 为 线 


性 判别 函数 ,a 称 为 判别 系数 (类 似 于 回归 系数 )。 
当 jy su , >) 未 知 时 ,可 通过 样本 来 估计 。 
BE XY? Xs? ,… XP RAG, 的 样本 ,i 二 1,2。 


n 


1 


Ni i-i 
Bs = POOH = KOK = FRO +X) 
1-1 


线性 判别 函数 为 : 


W(X)= (X-X; m (XY — XK) 


(2) m Sl uk >” 时 

按照 距离 最 近 准 则 ,类 似 地 有 : 
fc D'CX,G) < D’ (X,G:) 
X € DCX G) DUC 
X 待 判 D2(X,G) = D’ (X,G:) 

仍然 用 W(X) = D (X,G:)— D' (X,G,) 


Qs L Xo ix x AD ues A. : Xo? = xo 3 — (S 
P 2; ! age = 22 n 十 12 一 2 


S2) 
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= a s é 2 
-一 
a 


OD 


一 (X — Gh ) Nn y (X =GP j= (X =GP ) (>， ya (X —G ), 


Lue he sLB EHE D 来 代替 . 
作为 判别 函数 ,此 时 的 判别 函数 是 X 的 二 次 函数 。 

(3) 检验 

由 于 判别 分 析 是 假设 两 组 样品 是 取 自 不 同 总 体 ,如 果 两 个 总 体 的 均值 向 量 在 统计 上 差 
异 不 显著 , 则 进行 判别 分 析 意义 不 大 。 所 以 ,两 组 判别 分 析 的 检验 ,实际 就 是 要 检验 验 两 个 正 
态 总 体 的 均值 向 量 是 否 相等 ,相关 内 容 可 参考 第 三 章 。 


5.2.2 ”多 个 总 体 的 距离 判别 法 

WU k MR HG, ,它们 的 均值 和 协 差 阵 分 别 为 :py*”，》)” ,i 二 1,…,k， 

相应 抽出 样品 个 数 为 z…na On 十 … om ny = 00 ,每 个 样品 观测 p 个 指标 得 观测 数据 
如 下 ， 

总 体 Ci 的 样本 数据 为 : 


(19 FO) (D sd (1) 
Xi Xi X12 Tip 
€1) (1) (D CL) 
X? T2] T22 Ut Lp 
(1) (1) (1) (1) 
Xa heni as O as 


总 体 G, 的 样本 数据 为 : 


>) (kh) 3 (b) 
X42 "t Tip 


XP [xf 
XP xP xl € xi 
he (tet Gnd e 
记 总 体 的 样本 指标 平均 值 为 : 
X? = (x? xf? FP) i = 1,2，…,。 

任 取 一 个 样品 , 测 得 其 指标 值 X = Gn x,’ fal X IARE 362 
(1) — ae "m D3 = 3 时 
WER D? (X,G = (X> pP DD (X— gu? ),i=1,2,.,k 
判别 函数 为 : 

W, (X)= JID GGG) = DÉC] = 38d 


相应 的 判别 准则 为 : 
X € MWQCOXODOBISPT—Ujzi 
D BAT W,(X)=0 
uO? yen >) 未 知 时 ,可 通过 样本 来 估计 。 
d XY? XY oe ,Xs? KAG 的 样本 ,i 二 1,*…,k。 
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判别 分 析 
à cd su sys E ay k 
H mit? m XS iS ov sks D=; Ds 
= i=] 
BEES, = 5) AP- KX — KX) 
t=1 

DHE? a, À KAF 
此 时 判别 函数 为 
Wi, (X)= (KKH Vax xe = (RA ES c — 308) 
相应 的 判别 准则 为 ， 


Xc€G, 当 Wi(X) 二 0 时 ,对 于 一 切 ) Ki 

待 判 ,车 有 一 个 W; (X) 二 0 其中》，” 可 用 它 的 估计 量 S/n 一 1 来 代替 。 

例 1 为 研究 2010 年 中 国 各 省 年 生产 总 值 状 况 , 今 选择 经 济 相对 发 达 、 经 济 中 等 发 展 
水 平 的 省 份 各 五 个 作为 两 组 样品 , 另 选取 三 个 省 份 作为 待 判 样品 做 距离 判别 分 析 ,判别 指标 
及 原始 数据 见 表 1-3。 资 料 来 源 中 国 统计 年 鉴 (2011 年 ) 。 

zi :第 一 产业 生产 总 值 

za :第 二 产业 生产 总 值 

zs :第 三 产业 生产 总 值 


表 1 (单位 : 亿 元 ) 
第 二 产业 
河北 2562. 81 10707. 68 7123.77 
山西 554. 48 5234 3412. 38 
辽宁 1631. 08 9976. 82 6849. 37 
内 蒙古 1095. 28 6367. 69 4209. 02 
5204. 11 
表 2 (单位 : 亿 元 ) 
G; 第 一 产业 第 二 产业 第 三 产业 
上 海 114. 15 7218. 32 9833.51 
江苏 2540. 1 21753. 93 17131. 45 
浙江 i 1360. 56 14297. 93 12063. 82 
山东 3588. 28 21238. 49 14343. 14 
广东 2286. 98 23014. 53 20711. 55 
R3 (单位 : 亿 元 ) 
待 判 样品 第 一 产业 第 二 产业 第 三 产业 
安徽 1729. 02 6436. 62 4193. 68 
云南 1108. 38 3223. 49 2892. 31 
福建 1363. 67 7522.83 5850. 62 


本 例 中 变量 个 数 p = 3, 两 类 总 体 各 有 5 个 样品 ,ni = 5m 一 5, 有 3 个 待 判 样品 ,为 方 
便 起 见 ,假定 两 个 总 体 协 差 阵 相等 。 
两 组 线性 判别 的 计算 过 程 如 下 : 
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1429. 31 1978. 01 
(1) X = | 7498.06 X? = |17504. 64 
5091. 226 14816. 69 


(2) 计算 样本 协 差 阵 , 求 出 > 


na 
S, — DY xe — xX ) (XY — xX)’ 
t=1 


2218416 6786467 4577456 
6786467 28111822 18500662 
4577456 18500662 12331121 


I 


S, = Haxe =A —XxXoy 
t+ 一 1 
685996 31255624 13347604 
= [|31255624 178448357.3 100634191 
13347604 100634191 72742114 
: EN 1 4 
由 >) = SEE Ath) 可 得 
i 7.36583 — 2.39931 1.80795 
D3) = |[— 2.39931 0.982918 — 0.870921 |x 10* 
1.80795 —0.870921 — 0.932718 


(3) 求 线性 判别 函数 W(X) 


c= x (X! —XK® )= (2.384025 一 0.0490255 — 1. 348214)! X 10? 


WOO = tX—X) alt X (XY +X®)) 


W(X) = (2. 3840252, — 0. 04902552; — 1. 3482142, + 9971. 38) X 10? 
(4) 对 已 知 类 别 的 样品 判别 分 类 


样品 省 份 W(X) 的 值 判 归 类 别 
河北 5. 951866908 1 
山西 6. 436053832 1 
ut 4. 1363796 1 
内 蒙古 6. 595714095 1 

黑龙 江 7. 616140366 1 
上 海 一 3.368041416 2 
江苏 一 8.13631284 2 
浙江 一 3.750584108 2 
山东 一 1.852917887 2 
广东 一 13.62829855 2 


C5) 对 判别 效果 做 检验 
判别 分 析 是 假设 两 组 样品 取 自 不 同 的 总 体 ,如 果 两 个 总 体 的 均值 向 量 在 统计 上 差异 不 
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显著 ,做 判别 分 析 意 义 就 不 大 。 所 谓 判 别 效果 的 检验 就 是 检验 两 个 正 态 总 体 均 值 向 量 是 否 相 
等 ,根据 第 一 章 的 相关 知识 可 知 检验 的 统计 量 为 : 


| | 
Fa eT ze Do TT! FOsm tm — P= 


其 中 T? = (n +m —2)| |. mna (XO —Xo?ysg- |_m ne (XO -xe| 
nı + nz ny + ns 


It ARIA BETTE ER ORHAN BETTE p = 0. 017709435, a = 0.05 的 检验 水 平 下 ,两 总 体 
差异 显著 , 即 判别 函数 有 效 。 
C3) 对 竺 判别 样品 判别 归 类 的 结果 如 下 : 


样品 省 份 W(X) 的 值 判 归 类 别 
安徽 | 8. 123868562 1 
云南 | 8. 556297141 | 1 
福建 4. 965703818 1 


简单 分 析 : 回 代 率 为 百分之百 ,与 资料 符合 ,而 待 判 的 三 个 样本 的 判别 结果 表明 :安徽 、 
云南 .福建 为 经 济 欠 发 达 的 省 份 , 即 第 一 类 ,结果 符合 实际 。 


5.3 贝 叶 斯 (Bayes) 判别 法 


从 上 节 看 距离 判别 法 虽然 简单 ,便于 使 用 ,但 是 该 方法 也 有 它 明显 的 不 足 之 处 。 第 一 , 判 
别 方 法 与 总 体 各 自 出 现 的 概率 的 大 小 无 关 ; 第 二 ,判别 方法 与 错 判 之 后 所 造成 的 损失 无 关 。 
Bayes 判别 法 就 是 为 了 解决 这 些 问 题 而 提出 的 一 种 判别 方法 。 

5.3.1 基本 思想 

贝 叶 斯 判别 法 对 多 个 总 体 的 判别 不 是 考虑 建立 判别 式 , 而 是 计算 新 给 样品 属于 个 总 体 的 
概率 PG/2) ,i 三 1,…,m, 比 较 这 m 个 概率 的 大 小 ,然后 将 新 样品 判 归 为 来 自 概率 最 大 的 总 体 。 

RA m AAW, G Grot Gns 它们 的 先 验 概率 分 别 为 gi geet quo 密度 函数 为 
fi Geo s fa Goo setts fim Cr) ,在 观测 到 一 个 新 样品 zx 的 情况 下 ,可 用 贝 叶 斯 公式 计算 它 来 自 第 
i 个 总 体 的 后 验 概率 : 


PG/x)— afi (2) ， t=1,2,°+5m 
Dus <2) 
并 且 当 
P(h/x)— MaxP (i/x) 

AY FE 2 KABA SA. 

另外 ,有 时 为 了 合理 考虑 错 判 所 带 来 的 损失 ,还 使 用 错 判 损失 最 小 的 概念 确定 判别 函 
数 ,这 时 ,把 xz 错 判 给 第 h 个 总 体 的 平均 损失 定义 为 : 

ely F ed spes 
un 5 
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其 中 LL(h/ 让 ) 称 为 损失 函数 , 它 表示 本 来 是 第 i 个 总 体 的 样品 错 判 为 第 h 个 总 体 的 损失 。 于 是 
建立 判别 准则 为 ,如 果 
E(h/x)-— MinE (g/z) 

则 ,判定 zz 来 自 第 h 个 总 体 。 

显然 考虑 损失 函数 更 为 合理 ,但 是 由 于 实际 应 用 中 ,由 于 工 (A/) 不 容易 确定 ,经 常 在 数 
学 模型 中 假定 各 种 错 判 的 损失 缘 相 等 ,这 样 ,寻找 hh 使 后 验 概率 最 大 实际 上 等 价 于 使 错 判 损 
失 最 小 , 则 : 

Ph/x) MaxchE Oh 2)-» Min 

根据 上 述 思想 ,在 假定 协 方差 矩阵 相等 的 条 件 下 , 即 可 以 导出 判别 函数 。 

5.3.2 多 元 正 态 总 体 的 Bayes 判别 法 

在 实际 问题 中 过 到 的 许多 总 体 往往 服从 正 态 分 布 ,下 面 给 出 p 元 正 态 总 体 的 Bayes FI 
别 法 ,以 及 判别 函数 的 导出 。 

C1) 待 判 样 品 的 先 验 概率 和 密度 困 数 


对 于 先 验 概率 ,一 般 可 用 样品 频率 来 代替 , 即 令 g; = 本 ,其 中 n; 为 用 于 建立 判别 函数 的 
已 知 分 类 数据 中 来 自 第 ;总体 样 品 的 数目 , 且 思 十 妈 十 … 十 mw 二 nn, 或 者 干脆 令 先 验 概率 相 
等 , 即 o, — 二, 这 时 可 以 认为 先 验 概率 不 起 作用 。 

对 于 第 i 总 体 的 密度 函数 , 设 pb 元 正 态 分 布 密度 函数 为 : 

fila) = too | 37^ [5 + exp[- $40 Pap) 

sp u^ MYO ANDES i 总体 的 均值 向 量 (p 维 ) 和 协 差 阵 Co BD. 把 GO 代入 
P(i/z) 的 表示 式 中 ,因为 我 们 只 关心 寻找 使 PCi/z) 的 ;而 分 式 中 的 分 母 不 论 ;为 何 值 都 是 
常数 , 故 可 改 令 


af) —- Mas 
对 qf; GO 取 对 数 并 去 掉 与 i 无 关 的 项 , 记 为 


ZG/z) = lng—3In| 7 |- 3G y Dp) 
= Ing, 一 j| a Ft 4 Ia) cu tre P 
则 问题 可 化 为 ZG/2) — max 
假定 & 个 总 体 协 方差 阵 相 同 , 即 六 ”= 六 Se I = ,这 时 Zi/z) 中 
方 In| 57" | fa^ 917 "a Pio i 无 关 , 求 最 大 时 可 以 去 掉 , 最 终 得 到 如 下 形式 的 判别 函 
数 与 判别 准则 
Wiz) = Ing, — Sp)? a! 9] uo 


yG/z) = Max 
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(2) 计算 后 验 概率 
进行 计算 分 类 时 ,主要 根据 判别 式 y(i/x) 的 大 小 ,而 它 不 是 后 验 概 率 P(i/z) ,但 是 有 
了 y(i/z) 之 后 ,就 可 以 根据 下 式 算出 后 验 概率 PCi/z) s 
Piga = ei 


> exp{y(i/zx)} 
7E EE M quf, (0) = maxq:f:(D>Ph/x) 一 maxP(iz), 则 把 样品 z 归 为 第 /总 体 。 


例 2 利用 距离 判别 法 中 的 例 1 的 各 省 份 的 生产 总 值 的 数据 做 Ba yes 判别 分 析 这 里 组 
Blk 二 2, 变量 个 数 p = 3, 两 类 总 体 各 有 5 个 样品 ,mm = Som 一 5, 有 3 个 待 判 样品 ,为 方便 
起 见 ,假定 两 个 总 体 协 差 阵 相 等 。 

两 组 线性 判别 的 计算 过 程 如 下 : 


1429. 31 1978. 01 
(1) X = | 7498.06 X — |17504. 64|, 

5091. 226 14816. 69 
qi 二 qz 一 5 Ing; = lng; =— 0. 693147 


(2) 计算 样本 协 差 阵 , 求 出 了 


. 7.36583 — — 2.39931 1.80795 
D5 = |— 2.39931 0.982918 — — 0.870921 x 10* 
1.80795 — 0.870921 — 0.932718 


(3) 求 线性 判别 函数 y(i/x) 
由 y(i/z) - Ing, — Se 9] u^ a E jm 1.9 


fi = 0. 001742585.2x, — 0. 0004934322, + 0. 0008025882; — 2. 131683225 
fs =— 0. 000641442, — 0. 0004444062; + 0. 002150802x; — 12. 10305938 
CA) 将 原 各 组 样品 进行 回 判 的 结果 ,并 得 待 判别 结果 如 下 : 
回 判 结果 表明 ,总 的 回 代 判 对 率 为 100%, 这 与 统计 资料 的 结果 相符 ,并 与 前 边 的 距离 
判别 法 的 结果 也 相同 。 


Gi fi fa 回 判 类 别 
河北 2.768177011 | 一 3.18369 1 
山西 一 1.00934013 一 7.44539 1 
辽宁 1. 284957141 一 2.85142 1 
内 蒙古 0.013025342 一 6.58269 1 
黑龙 江 0. 670124956 一 6.94602 1 

A + 

上 海 2. 397743453 5. 765785 2 
江苏 5. 310078378 13. 44639 2 
浙江 2.866435994 6. 61702 2 
山东 5. 15309159 7. 006009 - 2 


41 


= DD " a 
-一 
u 


续 表 

Gl fi f2 回 判 类 别 

广东 7. 120320867 20. 74862 | 2 

待 判 样品 | | 

安徽 | 1.071047508 一 7.05282 | 1 

云南 0. 53052524 一 8.02577 | 1 

福建 1. 228263841 — 3. 73744 1 

5.4 $$ (Fisher) 判别 法 

RE (Fisher) 判别 法 的 思想 是 投影 ,将 有 组 p 维 数据 投影 到 某 一 个 方向 ,使 得 它们 的 投 


影 组 与 组 之 间 尽 可 能 地 分 开 , 使 投影 每 组 内 部 离散 性 最 小 ,该 方法 对 总 体 的 分 布 并 未 提出 什 
么 特定 的 要 求 。 

具体 的 过 程 :针对 p 维 空间 中 的 某 点 x = (Cr) exeo m2 寻找 一 个 能 使 它 降 为 一 维 数值 
HIÉR HE PR yx) : 

y= cizi t izt +e + Cry 

其 中 ,co…cs 为 待 求 的 判别 函数 的 系数 ,判别 函数 的 系数 的 确定 原则 是 使 两 投影 组 间 区 别 
最 大 ,使 每 组 内 部 离散 性 最 小 有 了 判别 函数 后 ,对 于 一 个 新 的 样品 ,将 p 个 指标 的 具体 数值 
代入 判别 式 中 求 出 y 值 ,然后 与 判别 临界 值 进行 比较 ,并 判别 其 应 属于 哪 一 组 。 

5.4.1 两 组 判别 分 析 

设 有 两 组 总 体 C; 和 Cs ,相应 抽出 样品 个 数 为 ,nz On +n) 一 2 每 个 样品 观测 p 个 指 
标 得 观测 数据 如 下 ， 

总 体 C 的 样本 数据 为 : 


(D (1) CD (D 

Xi Xu X12 set EG: 

Xj" zo am e x 

(1 (1) (1) (D 

Ae, (Zai Ge» t Tae 

该 总 体 的 样本 指标 平均 值 为 : 

, 

XY — GP ai? gree ae?) 


总 体 G: 的 样本 数据 为 : 
AYP [zi 


XP [xo 了 和 
AP Lus aca c xh. 
该 总 体 的 样本 指标 平均 值 为 : 


2 2 7 / 
X? = (TP, yore a ) 
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设 判 别 函数 
yx) = Ar 二 cr 十 cpry 
Ju] G 的 数据 对 应 的 判别 值 为 : 
yi? = cx xP 十 cz 全 zis eR eri) 
yi” = eux TE EE AS rel 
F. 
gu = erth eee Fe uw 


则 G; 的 数据 对 应 的 判别 值 为 : 


(2) Qi» 3 UD s (2) 
yi = (211 T Co X19 Cpt ip 
(2) 2) (2) ts 
ya = CrTi C2 X22 CpI 2» 

4 
(Dy n uS lox S008 TA (2) 
Ya, — C1 Eal C2 Tn? Cpl ny p 


a 


o0 (1) gP = 1 = (2) 
sen = LSP = eo 
根据 费 舍 准则 ,要 使 判别 的 结果 满足 两 组 间 区 别 最 大 ,每 组 内 部 离散 性 最 小 。 则 判别 函 
数 的 系数 cl ses nne, 应 该 能 够 使 : 
(D Aye y? 


p n £ > 
1 2 


2; Cy? — y? y? 4 >, Cy? — y? y? 
取得 最 大 值 .根据 微 积分 的 知识 ,a 10h77] 3€, 为 方程 组 ， 


a= e i elg 
的 解 , 可 以 证 明 , 最 优 判 别 函数 系数 ci ,cs，…,c。 为 下 述 方程 的 解 : 
Su S2 cC Sap | [ca xP — 7 
Sa 03m o 70 5| [Co | — rs) — a2? 
Sp Sp ° Spp Cp mp =a 


ng 


n 
1 

其 中 :sw = >) Gri — gj? ) GP 一 zi? y+ 2; GP — r? ) (x — gi?) 
i=l 


x =] P01) 7.2) 
Cy $11 $12 Sip X1 X1 
us LO 
所 J Co S21 $22 S2p xs — Xe 
L = 
i " wee " P 05 
Cp Spl Spe Spp Tp Tp 


确定 了 判别 函数 以 后 ,还 需要 确定 判别 临界 值 ( 分 界 点 )y ,在 两 总 体 先 验 概率 相等 的 假 
设 下 ,一 般 常 取 : 
EE y? - n y? 
+i ni 十 n; 


若 有 一 判别 的 对 象 其 数据 为 (zo »Zo29°°* Zop) , 则 其 判别 值 为 


| 多 元 , 统 it 4 7 5 ds d 
LE 


~ Lc — 
bi CI1Zol T C2 Toz T I CyXop 


D 当 y > yO HOA y > ys , 则 判别 该 对 象 属于 G , 若 y< yo ,判别 该 对 象 属于 G: 
1) Sy? > y BA y > yo DUAL AM BIR Ga , 若 y < yo ,判别 该 对 象 属于 G 
$43 利用 距离 判别 法 中 的 例 1 的 各 省 份 的 生产 总 值 的 数据 做 Fisher 判别 分 析 

(1) 建立 判别 函数 

利用 前 边 的 计算 结果 ,可 得 Fisher 判别 函数 的 系数 


a LY a2) 


Cı zi” =t 298. 003 
cz |= S |z — 2 — 6. 12818 |X 10- 
C3 TP — rP — 168. 527 


所 以 判别 函数 为 : 
y = (298. 003x, — 6. 12818x, — 168. 527zx,) X 10™ 
(2) 计算 判别 临界 值 yo 


3 3 
y?" = Daz? =— 0.47802, y? = Slax” =— 2.01488 
k=1 k=l 
OD) AO 
所 以 docs Se S. o niei 
n; Fn 


(3) 判别 准则 


Dp y > y? ,所 以 判别 准则 为 
dy» AHreG, 
By<y FxEG, 
y = Jo 待 判 
CA) 将 原 各 组 样品 进行 回 判 的 结果 ,并 得 待 判别 结果 如 下 : 


Gi 判别 函数 y 的 值 判 归 类 号 
河北 一 0.502438656 1 
山西 一 0. 44191529 1 
iT — 0. 729374569 1 
内 蒙古 — 0. 421957757 1 
黑龙 江 — 0. 294404473 1 
G: 
上 海 一 1.667427196 2 
江苏 一 2.263461124 2 
浙江 一 1.715245033 2 
山东 一 1.478036755 2 
广东 一 2.949959338 2 
待 判 样品 
安徽 — 0, 230938449 1 
云南 | — 0. 176884877 1 
福建 — 0. 625709042 1 


回 判 结果 表明 ,总 的 回 代 判 对 率 为 100 26 ,这 与 统计 资料 的 结果 相符 ,并 与 前 边 的 距离 


判别 法 、Bayes 判别 法 的 结果 也 相同 。 
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第 五 章 
判别 分 析 


5.4.2 多 组 别 费 舍 判别 法 
设 有 & 组 总 体 C， ttt Gy, ,相应 抽出 样品 个 数 为 My tnu +e +n, =n) ,每 个 样品 观 
WW p 个 指标 得 观测 数据 如 下 ， 
总 体 G; 的 样本 数据 为 : 
XY? (oy af 
| 
X? [2% zB a 
该 总 体 G: 的 样本 指标 平均 值 为 : 


(i) 


TO = QU aee TP ,样本 协 差 阵 :5 


设 判别 函数 
yr) = ért Hegt $e + px, EI 
则 G: 的 数据 对 应 的 判别 值 为 : 


m ally fe uu ae eo 
yi FS CTi T €nX32 Ci ip 
[e NERONE [m -- MN 
y2 = Cy Xe, T C2T22 CpX 2p 
W L x aD --— A" @) 
Yn, C1 Ent 十 cix» + 6x 


A 


$ y^ = L3 y^ , 则 根据 求 随机 变量 线性 组 合 的 均值 和 方差 的 性 质 可 知 ,y(z) 在 
G 上 的 样本 均值 和 样本 方差 为 
y = cr? m. = c's?c 
ic 为 总 的 均值 向 量 , 则 y = cu. 
在 多 总 体 情 况 下 ,Fisher 准则 就 是 要 选取 系数 向 量 ,使 


k 
5 n; Cy? DN y)? 
EE 
k 
Dao? 
i=l 


达到 最 大 ,其 中 是 g; 人 为 的 正 的 加 权 系 数 , 它 可 以 取 为 先 验 概率 ,在 这 里 取 9 = n; — 148 
相关 的 知识 : 


A 


9A _ - 
IC — 0— Ac = AEc 


Kp E Og £8 P E25 E LA OW A Ti EF A B EE, BUE = 2,257, A 
zr)? — r). 
这 说 明了 4 及 c 恰好 是 和 矩阵 A 关于 矩阵 已 的 广义 特征 根 及 其 对 应 的 特征 向 量 。 由 于 一 般 
都 要 求 加 权 协 差 阵 已 是 正定 的 ,由 代数 知识 可 知 , 存 在 上 式 非 零 特 征 根 ; 
Ay >à: Se SA, > 0 Am < min(k—1,p) 
D 只 取 一 个 判别 函数 ,那么 判别 系数 就 是 就 是 最 大 的 非 负 特征 根 X1 多 对 应 的 特征 向 量 
c。 若 有 一 判别 的 对 象 其 数据 为 (zu ,zw ，…,zop), 则 其 判别 值 为 


l 
AE 
E 
& 
| 
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= DEED " 4 
-一 
s 


Y CXol F cz Xo? + ss e uds 


一 种 简单 的 分 类 方法 : 若 | >(z) — y^ | = min | yx) — y? | WH z € G. 
2) 若 取 m, On; < m) 个 判别 函数 ,前 mo 非 负 特征 根 A, 及 其 对 应 的 特征 向 量 c”， 


yr) = gt gy L= 1, ,mo 


若 Di = minD?, 则 判 x € G,, 其 中 D? = D [ya — yf? A, i = 1,*…,k 
1<j<k TET 


最 后 ,为 了 选取 有 效 的 判别 函数 ,对 于 每 个 判别 函数 必须 给 出 一 个 用 以 衡量 判别 能 力 的 
指标 p, ,衡量 判别 函数 判别 能 力 的 指标 定义 为 : 


2 o——— (=1,.…,m 
m 
则 mo Cn, < m) 个 判别 函数 的 判别 能 力 为 : >) pi = 2 SUR mo 达到 某 个 人 定 的 值 (比如 
1=1 RN 


80%) 则 就 认为 mo 个 判别 函数 就 够 了 。 

贝 叶 斯 方法 一 般 多 用 于 多 组 判别 分 析 , 贝 叶 斯 判别 方法 的 数学 模型 所 要 求 的 条 件 严格 ， 
它 要 求 各 组 变量 必须 服从 多 元 正 态 分 布 ,各 组 的 协 方差 矩阵 相等 ,各 组 的 均值 向 量 有 显著 差 
异 。 而 费 舍 判别 法 主要 要 求 各 组 均值 向 量 有 显著 差异 即 可 。 


5.5 逐步 判别 法 


距离 判别 法 、Bayes 判别 法 以 及 Fisher 判别 法 等 都 是 利用 给 定 的 全 部 变量 来 建立 判别 
法 则 ,但 这 些 变量 在 判别 式 中 所 起 的 作用 ,一般 来 说 是 不 同 的 ,也 就 是 说 各 变量 在 判别 式 中 
判别 能 力 不 同 ,有 些 可 能 起 重要 作用 ,有 些 可 能 不 是 很 重要 。 实 证 发 现 ,如 果 将 一 些 判 别 能 力 
不 重要 的 变量 保留 在 判别 式 中 ,不 仅 会 增加 计算 量 ,而 且 会 产生 干扰 影响 判别 效果 ,反之 ,如 
果 将 重要 变量 忽略 了 ,也 会 影响 判别 的 效果 .逐步 判别 法 就 是 在 判别 过 程 中 不 断 的 提取 重要 
变量 和 剔除 不 重要 变量 ,最 终 得 到 最 佳 的 判别 法 则 的 过 程 。 

5.5.1 引入 和 剔除 变量 所 用 的 检验 统计 量 

根据 逐步 判别 分 析 的 基本 思想 ,进行 判别 分 析 需 要 解决 两 个 关键 的 问题 ,一 个 是 引入 或 
剔除 判别 变量 的 依据 和 检验 问题 ;另外 则 是 判别 函数 的 及 时 导出 的 问题 .其 中 的 理论 基础 又 
在 于 如 何 对 判别 变量 在 区 别 各 个 总 体 中 是 否 提供 附加 信息 的 检验 。 为 此 这 里 先 给 出 如 何 对 
判别 变量 在 区 别 各 个 总 体 中 是 否 提 供 附加 信息 进行 检验 的 基础 理论 。 

RA b TB EG. n ,Gi ,相应 抽出 样品 个 数 为 sn On d tn = n) ,每 个 样品 观 
W p 个 指标 得 观测 数据 如 下 ， 

EMA G: 的 样本 数据 为 : 
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判别 分 析 
XP fxi oxi Gs 
Pa 22 Xi) 
" = Ley +k 
ROME E LEE n 
该 总 体 G; 的 样本 指标 平均 值 为 : 
Xo? = (Ze ,zx ,ee E sf 
今 作 统计 假设 
H, d = u? —— Ó— P 


如 果 接 受 这 个 假设 ,说 明 建 立 的 判别 函数 效果 肯定 不 好 , 当 原 假设 被 否定 时 ,说 明 这 上 
个 总 体 可 以 区 分 ,建立 判别 函数 有 意义 ,根据 第 一 章 建 立 的 检验 统计 量 为 
| E | 


4s ^ TA+ET 


~ Ay — kk — 1) 


k Na k . 
其 中 ,E= 919 Q9 — X9)'(Xj? —X95,A = Yn (X9 — Ky (co —X) 
a=1 


a=1 i=l 


Ay 值 越 小 ,表明 相同 总 体 间 的 差异 越 小 ,相对 地 ,样本 间 总 的 差异 越 大 , 即 各 总 体 间 有 
较 大 差异 。 

5.5.2 逐步 判别 的 原则 

由 于 逐步 判别 法 涉及 的 数学 计算 非常 的 复杂 ,在 此 就 不 作 详细 的 介绍 ,只 介绍 逐步 判别 
的 基本 过 程 。 

A) E Titran m NARE) 中 , 先 选 出 一 个 自 变 量 , 它 使 维尔 克 斯 统计 量 ALG 
— lem) 达到 最 小 .为 了 方便 起 见 , 不 失 一 般 性 ,假定 挑选 的 变量 次 序 是 按 自然 的 次 序 ， 
即 第 + 步 正好 选中 x, ,第 一 步 选中 x, WA A: = mint AUG ,并 考察 A1 是 否 落 入 接受 域 ,如 不 
显著 , 则 表明 一 个 变量 也 选 不 中 ,不 能 判别 分 析 ; 如 显著 , 则 进入 下 一 步 。 

(2) 在 未 选中 的 变量 中 ,计算 它们 与 已 选中 的 变量 x, 配合 的 A M ERE ARSi 
m) 达到 最 小 的 作为 第 二 个 变量 。 仿 此 ,如 已 选 人 了 个 > 变量 ,不 妨 设 是 T ,zs，… r MWER 
选中 的 变量 中 逐次 选 一 个 与 它们 配合 ,计算 Assur Lx m) ,选择 使 上 式 子 达到 极 小 的 
变量 作为 第 > 十 1 个 变量 。 并 检验 新 选 的 第 > 十 1 个 变量 能 和 否 提供 附加 信息 ,如 不 能 则 转 和 人 
(4) ,和 否则 转 人 (3) 

(3) 在 已 选 入 的 7 个 变量 中 ,要 考虑 较 早 选中 的 变量 中 其 重要 性 有 没有 较 大 的 变化 ,应 
及 时 把 不 能 提供 附加 信息 的 变量 剔除 出 去 .剔除 的 原则 等 同 于 引进 的 原则 ,例如 在 已 进入 的 
r 个 变量 中 要 考察 x,(l1 过! 过 7) 是 和 否 需要 剔除 ,就 是 计算 Ane i 选择 达到 极 小 的 2， 
看 是 否 显著 ,如 不 显著 将 该 变量 剔除 , 仍 回 到 (3) ,继续 考察 余下 的 变量 是 否 需 要 剔除 ,如 显 
著 则 回 到 (2) 。 

(4) 这 时 既 不 能 选 进 新 变量 , 又 不 能 剔除 已 选 进 的 变量 , 将 已 选中 的 变量 建立 判别 
函数 。 

无 论 用 哪 一 种 判别 方法 去 判别 样品 的 归属 问题 , 均 不 可 能 永远 的 作出 正确 的 判断 ,判断 
函数 效果 的 验证 方法 有 :(1) 自身 验证 (2) 外 部 数据 验证 (3) 样本 二 分 法 (4) 交互 验证 ,读者 
可 自行 选择 合适 的 验证 方式 。 
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本 章 思考 与 练习 


1. 判别 分 析 与 聚 类 分 析 有 何 区 别 。 

2. 试 析 距 离 判别 法 、 贝 叶 斯 判别 法 、Fisher 判别 法 的 异同 。 

3. 下 表 是 一 个 班 同 学 的 各 科 成 绩 , 试 用 K 聚 类 法 把 学 生 分 成 两 类 ,然后 用 距离 判别 法 
建立 判别 函数 ,并 根据 此 判别 函数 对 原样 本 进行 回 判 。 


姓名 数学 物理 语文 政治 
lxy 99. 00 98. 00 78. 00 80. 00 
lwr 88. 00 89. 00 89. 00 90. 00 
lgm 79.00 80. 00 95. 00 97. 00 
lm 89. 00 78. 00 81. 00 82. 00 
hah 75.00 78. 00 95. 00 96. 00 
yxy 60. 00 65. 00 85. 00 88. 00 
clf 79. 00 87.00 50. 00 51. 00 
wzb 75. 00 76. 00 88. 00 89. 00 
cld 60. 00 56. 00 89. 00 90. 00 

fj 100. 00 100. 00 85. 00 84. 00 


BNI EM ar Br 


在 实际 问题 中 ,我们 经 常会 遇 到 研究 多 个 变量 的 问题 ,而 且 在 多 数 情况 下 ,多 个 变量 之 
间 常 常 存 在 一 定 的 相关 性 。 由 于 变量 个 数 较 多 ,再 加 上 变量 之 间 的 相关 性 ,势必 增加 了 分 析 
问题 的 复杂 性 .如 何 把 多 个 变量 综合 为 少数 几 个 代表 性 的 变量 ,使 得 这 几 个 代表 性 变量 既 能 
够 代表 原始 变量 的 绝 大 多 数 信息 ,又 互 不 相关 ,并 且 在 新 的 综合 变量 基础 上 ,可 以 进一步 的 
统计 分 析 ,这 时 就 需要 进行 主 成 分 分 析 (Principal Component Analysis) 。 


6.1 主 成 分 分 析 的 基本 原理 


设 对 某 一 事物 的 研究 涉及 p 个 指标 ,总体 X 是 一 个 p 维 随机 向 量 X = (Xi Xon, 
X, EX) =p D(X) = M. S 是 实 对 称 和 矩阵 。 
对 XX 进行 线性 变换 (线性 变换 简单 ,实践 效果 好 ) ,可 以 形成 新 的 综合 变量 ,用 下 表示 ,新 
的 综合 变量 可 以 由 X = (Xi ,X, ,…,X,) 的 线性 组 合 表示 : 
Fi = ui Xi un Xi 十 …… 十 xnX， 
Fy = us Xi H uz X: + + uy X, 
F, = pX i + Up X ++ + uy X > 
由 于 不 同 的 线性 变换 得 到 的 综合 变量 的 统计 特性 不 尽 相 同 ,为 了 使 得 综合 变量 能 
程度 地 包含 原 变量 所 代表 的 信息 , 又 能 保证 新 指标 之 间 保 持 信 息 不 重要 ,我 们 总 
F; = uX 的 方差 尽 可 能 大 上 且 各 下 ; 之 间 相 互 独立 。 
又 由 于 
DG, = Dw X) = ui >): 
对 于 任 给 的 常数 4a, 有 
D(au.X) = au; > wa = gw X 
因此 ,对 u: 不 加 限制 时 ,可 使 DCF,) 任意 增 大 ,问题 将 变 得 没有 意义 。 我 们 将 线性 变换 
约束 在 下 面 的 原则 之 下 : 
CD 每 个 主 成 分 系数 平方 和 为 1 即 :ui 十 ww 十 … 十 us 一 1 G = 1,2...) 
(2) 主 成 分 之 前 互 不 相关 Bl: Cov(F,.F;) =0 GH) 
(3) 主 成 分 方差 依次 递减 , 即 DCF.) > D(F,) > ++ > DC(F,) 
则 新 变量 指标 F Fst Fo 分 别称 为 原 变量 指标 X Xo X, 的 第 1 ,第 2,…… ,第 户主 
成 分 ， 


A 3 元 统 计 概 论 5 3: 验 


我 们 按照 Fi. ,F,,… ,下 的 信息 贡献 程度 即 方差 大 小 来 选择 适当 的 主 成 分 代表 原 变量 ， 
通常 只 挑选 前 几 个 方差 最 大 的 主 成 分 ,从 而 达到 简化 系统 结构 , 抓 住 问题 实质 的 目的 。 

总 之 ,综合 指标 ( 主 成 分 ) 有 以 下 几 个 特点 : 

(1) 主 成 分 个 数 远 远 少 于 原 有 变量 的 个 数 

原 有 变量 综合 成 少数 几 个 因子 之 后 ,因子 将 可 以 替代 原 有 变量 参与 数据 建 模 ,这 将 大 大 
减少 分 析 过 程 中 的 计算 工作 量 。 

(2) 主 成 分 能 够 反映 原 有 变量 的 绝 大 部 分 信息 

因子 并 不 是 原 有 变量 的 简单 取舍 ,而 是 原 有 变量 重组 后 的 结果 ,因此 不 会 造成 原 有 变量 
信息 的 大 量 丢 失 ,并 能 够 代表 原 有 变量 的 绝 大 部 分 信息 。 

(3) 主 成 分 之 间 应 该 互 不 相关 

通过 主 成 分 分 析 得 出 的 新 的 综合 指标 ( 主 成 分 ) 之 间 互 不 相关 ,因子 参与 数据 建 模 能 够 
有 效 地 解决 变量 信息 重 又 、 多 重 共 线 性 等 给 分 析 应 用 带 来 的 诸多 问题 。 


6.2 主 成 分 分 析 的 推导 


在 本 节 开 始 之 前 ,对 推导 过 程 中 引用 的 两 个 线性 代数 的 定理 先 作 简单 的 介绍 。 
EH 6.1 4 A J& p Xzp 阶 实 对 称 阵 , 则 一 定 可 以 找到 正 交 阵 口 ,使 得 有 


iy 0 
Ao eee 0 

U^ AU = 
0 i, 


其 中 Ali ,A2 和 sÀp 是 A 的 特征 根 。 
定理 6.2 A ERER A 的 特征 根 所 对 应 的 单位 特征 向 量 为 wi ,ws tu, 


un U2 tt Up 
Uu» U22 nd Us 
A 2 2 b 
4 UE quss a = 
Up Up Tt Upp 


则 实 对 称 和 矩阵 A 的 属于 不 同 特征 根 所 对 应 的 特征 向 量 是 正 交 的 , 即 
u +e, = OPUU = IUD = I, 
6.2.1 从 协 方差 出 发 求解 总 体 主 成 分 
X= XX XD 为 一 个 pb 维 随机 向 量 ,E(X) = x, D(X) = 》),》) 是 实 对 称 
矩阵 ,考虑 如 下 的 线性 变换 : 
F =a Xi as X; + a,X, =a'X 
其 中 a= (a, 92 2a) .X = (X, ns tdi a 
求 主 成 分 的 过 程 , 就 是 寻求 ,使 得 DG X) 尽 可 能 大 ,即使 
D(a'X) = E(a'X — E(a'X)) (a'X — E(a’X))’ 
= a’E(X — E(X))(X — E(X))‘a 
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第 六 章 
主 成 分 分 析 
T. 
达到 最 大 值 , 且 aa = 1, 
(一 ) 总 体 主 成 分 的 求法 
BED) 的 特征 值 为 A SA: 宇 … 宇 X, 宇 0, 正 交 化 单位 特征 向 量 为 uso eu, WEE k 
个 主 成 分 表示 为 
F, = u,X x uuXi + uz 六。 二 we 二 Wns 


D(F,) = Àk 
及 | jzh 
CovCF; ,F,) —0 
(二 ) 推导 过 程 
ui ui? ui, 
Uz U22 u 
^ U = (Qu suy) = i á fel 
Up Up U pp 
由 前 面 线 性 代数 的 定理 可 知 :U'U = UU’ = I. B. 
Ài 0 
A: eee 0 p 
5 = i g U = SA 
E i=l 
0 Ap 
可 得 
b b b 
a' ja 一 X àa'uiu'a = DA lau; ) a'u) = DA: Gu, Y 
i=l i=l i=} 
HA d SA, So SA, > OE 
p 
a’ $a s Xi Cau) — A (aU) aU) = Aia UU'a SA 
i=l 
p p 
又 u^ dye — u CP Aww’ = CO Au uuu) = ars 
i=l i=] 


因此 ,a = u ,使 得 D(a'X) = a Ya 达到 最 大 值 41, 即 DCu X) = u, bi = Ay 
可 见 , 第 一 个 主 成 分 Fy = uy, X; + uan X; dE ots Xp AD(F,) =A, 

ADX) — uw u =a. F, = uiX, 则 可 得 

b 
Cov(F; .F;) = CovGX ,u, X) = uiu; = uC Ò Auau, )uj = 0 is j 

由 上 述 的 推导 表明 XX. ue X, 的 主 成 分 就 是 以 >) 的 单位 特征 向 量 为 系数 的 线性 
组 合 , 它 们 互 不 相关 ,其 方差 为 >， 的 特征 根 。 

由 于 》) MSIE > So SA, > 0. FWA: DU) > DCO: ) > + > DUF,) > 0, 


了 解 这 一 点 也 就 明白 为 什么 主 成 分 的 名 次 是 按 特征 根 取 值 大 小 的 顺序 排列 的 。 
在 解决 问题 时 ,一 般 不 是 取 p 个 主 成 分 ,而 是 根据 累计 贡献 率 的 大 小 取 & 个 主 成 分 ,这 
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oo. 
> P P 
= 


样 就 达到 了 降 维 的 目的 。 
定义 6.1 总 方差 中 属于 第 i EMD PF, 的 比例 4;/ >)4; 称 为 主 成 分 F; 的 贡献 率 。 


第 一 主 成 分 F 的 贡献 率 最 大 ,表明 它 解释 原始 变量 X = X, Xe XO 的 能 力 最 
强 , 而 F, ,下 ,… Fo 的 解释 能 力 依次 递减 。 

主 成 分 分 析 的 目的 就 是 为 了 减少 变量 的 个 数 , 因 而 一 般 是 不 会 使 用 所 有 p 个 主 成 分 的 ， 
忽略 一 些 带 有 较 小 方差 的 主 成 分 将 不 会 给 总 方差 带 来 大 的 影响 。 


前 m 个 主 成 分 的 贡献 率 之 和 > A/D 称 为 主 成 分 F, , F,,… Fn 的 累计 贡献 率 , 它 表 


明 FF; Fn 解释 XX! ,X,,… X, 的 能 力 。 
通常 取 ( 相 对 于 p) 较 小 的 m, 使 得 累计 贡献 达到 一 个 较 高 的 百分比 (如 80% ~ 90%). 
此 时 ,Fi ,FE ,Fw 可 用 来 代替 XX Xen X, 从 而 达到 降 维 的 目的 ,而 信息 的 损失 却 不 多 。 
定义 6.2 "RR UA FE, 与 原始 变量 X, 的 相关 系数 op(F,X;) 称 做 因子 负荷 量 。 
因子 负荷 量 是 主 成 分 解释 中 非常 重要 的 解释 依据 ,因子 负荷 量 的 绝对 值 大 小 刻画 了 该 
主 成 分 的 主要 意义 及 其 成 因 , 因 子 负 荷 量 的 计算 公式 为 
pCR Xi) = us Jaa / Vos bei = 1,255 p 
M Est ay A , AF A for Bt 5 [6] et RC uus 成 正比 ,与 X; 的 标准 差 成 反比 关系 ,因此 ,不 能 
dt AF 5 fat Bt 5 [i it BOE A — ie . TE A PE E, BY) JU, DSL TE i SE ET Sk PE MP A 
重要 性 时 ,应 当 把 因子 负荷 量 和 Fi 5X, 的 变换 系数 结合 起 来 。 
例 1 i X = (X,,X2,X;)' 的 协 差 矩 阵 为 
1 —23 0 
= | 一 名 5 0 
0 0 2 
其 特征 值 为 ”4 = 5. 8284,Xs = 2,4， 一 0.1716, 其 相应 的 单位 特征 向 量 为 : 
— 0. 3827 0 — 0, 9239 
— 0. 9239 0 — 0. 3827 
0 1 0 
F, =— 0. 3827 X, +0. 9239 X, 十 0X, 
可 得 各 主 成 分 : | = 0X, + 0X, + 1X; 
F, —— 0. 9239 X, — 0. 3827 X, + 0X, 


“y= suz: = sù; = E 


BAT AYE A ERA «A = 97.875%, AR F, , F, 可 用 来 代替 Xi, X2, Xs 


从 而 达到 降 维 的 目的 ,而 信息 的 损失 却 不 多 。 

6.2.2 从 相关 阵 出 发 求解 总 体 主 成 分 

在 实际 应 用 时 ,往往 指标 的 量 纲 不 同 , 所 以 在 计算 之 前 先 消除 量 纲 的 影响 ,而 将 原始 变 
量 标准 化 ,标准 化 的 数学 变换 ; 


i — He pide 
Vou 
其 中 ,mvos 分 别 表示 变量 X, 的 期 望 与 方差 。 
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主 成 分 分 析 
令 
O11 0 0 
y" 0 022 0 
0 Vom 


那么 ,原始 变量 X 的 标准 化 : 
Z= (Xy tx uj 
我 们 对 X; »€ y (X, 的 主 成 分 分 析 转 变 为 对 2 » Za stet 1s 的 主 成 分 分 析 ,考虑 如 下 的 
线性 变换 : l 
F=a,Z,+a,Z,+--+a,Z, 5 a'Z 
则 可 得 
D(F) = D(a'Z) = a'Cov(Z,Z)a 
a8 CE VCS yn 


2 
= a Ra 


l pa ^ pi 
EA l 2 1 2 
其 由 R= OIF CDA = OY XXn X, 的 相关 阵 。 


pode te 1 
由 上 面 的 变换 过 程 ,从 Z 的 协 方差 出 发 求 主 成 分 的 过 程 ,实际 上 等 同 于 从 Xi Xa ,，…， 
X, 的 相关 阵 出 发 求 主 成 分 ,因此 ,由 相关 和 矩阵 求 主 成 分 的 过 程 与 主 成 分 个 数 的 确定 准则 实际 
上 是 与 由 协 差 矩阵 出 发 求 主 成 分 的 过 程 与 主 成 分 个 数 的 确定 准则 是 相 一 致 的 ,在 此 不 再 蒙 述 。 
EM Xi Xoo X, 的 相关 阵 出 发 求 主 成 分 ,从 R 的 表达 形式 ,此 时 6o; = 1, 因子 负荷 量 
pFis KX) = uy JA, ksi = 15255 op 
例 2 WX = (X,,X,,X3)' 的 协 差 矩阵 为 


16 2 30 
Yes? í 1 
30 4 100 
我 们 从 相关 阵 出 发 求 其 主 成 分 。 
解 :X = (XXX 的 相关 阵 为 


及 一 |0.5 1 0. 4 
0.75 0.4 1 


其 特征 值 为 À, = 2.114.A; = 0.646,24, = 0. 24, 


1 0.5 0, | 


其 相应 的 单位 特征 向 量 为 : 
0. 7410 — 0. 2408 0. 6269 
us = |— 0. 1420 | sus = |—0. 8562] ,u = oa 
— 0. 6563 — 0. 4571 0. 6002 


53 


INMTYTTPTVEY 


可 得 各 主 成 分 : 
F, = 0.7410X + (— 0. 1420) X; + (— 0. 6563) X; 
fF =— 0. 2408X, + (— 0. 8562) X, + 0. 4571X; 
F =— 0. 6269 X, + 0. 4967 X, + 0. 6002X; 


前 两 个 主 成 分 的 贡献 率 :一 守土 二 = 9296 ,可取 F, F, 可 用 来 代替 XXX. 从 而 


达到 降 维 的 目的 ,而 信息 的 损失 却 不 多 。 

实际 分 析 过 程 中 ,我 们 可 以 从 原始 数据 的 协 差 阵 出 发 ,也 可 以 从 原始 数据 的 相关 矩阵 从 
发 ,其 求 主 成 分 的 过 程 是 一 致 的 .但 是 ,从 协 差 阵 出 发 和 从 相关 阵 出 发 所 求 得 的 主 成 分 一 般 
来 说 是 有 差别 的 ,而 且 某 种 情况 下 差别 还 挺 大 。 

一 般 而 言 ,对 于 度量 单位 不 同 的 指标 或 是 取 值 范围 彼此 差异 非常 大 的 指标 ,我 们 不 直接 由 
其 协 差 阵 出 发 进行 主 成 分 分 析 , 而 应 考虑 将 数据 标准 化 , 则 从 相关 阵 出 发 进行 主 成 分 分 析 。 

6.2.3 ”样本 的 主 成 分 

从 前 面 求 主 成 分 的 过 程 我 们 了 解 到 ,我 们 可 以 从 协 差 阵 或 相关 阵 出 发 求 得 主 成 分 。 但 在 
实际 问题 中 , D) 或 R 一 般 都 是 未 知 的 ,此 时 ,可 用 其 估计 值 一 (样本 协 差 阵 ) ORE) 


用 样本 相关 系数 矩阵 尺 来 代替 R. 
总 体 X = (Xi Xon X 有 zp 项 指标 (变量 ) ,抽取 n 个 样品 ,每 个 样品 测 得 p 项 指标 
(变量 ) ,资料 矩阵 为 : 


X1 X11 X12 Zip 
x E T E X2 X22 X2p 
s, Tn Tn * Tap 
则 样本 协 差 阵 和 样本 相关 阵 为 
S _ 1 Xi. = a 
Fn r)Cr; m=z) 
R= (ry) 575 = — 


样品 的 主 成 分 分 析 ,实际 上 就 是 从 样本 协 差 阵 或 样本 相关 阵 出 发 求 主 成 分 的 过 程 , 由 于 
两 者 数学 过 程 一 样 ,这 里 只 介绍 从 样本 相关 阵 出 发 求 主 成 分 的 步 又。 
主 成 分 分 析 的 主要 步骤 如 下 : 
(1) 计算 样本 相关 阵 R 
S 1 


n=] n=] 


>) Gy — 2) Ce —2Y 
i=l 


S 
R = (ry) ry = —À 


(2) 求 出 R BIRRE EL A; 及 相应 的 正 交 化 单位 特征 向 量 wu 
R 的 前 m 个 较 大 的 特征 值 4, ZR AS LAS ERE BT m SE AP OE IJ 28 A, 对 应 的 
单位 特征 向 量 w 就 是 主 成 分 下 ; 的 关于 原 变量 的 系数 , 则 原 变量 的 第 ;个 主 成 分 下, 为 :F; = 
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u;X , 主 成 分 的 方差 (信息 ) 贡献 率 用 来 反映 信息 量 的 大 小 ,ai; 为 :a = A >) Ai 


(3) 选择 主 成 分 


最 终 要 选择 几 个 主 成 分 , 即 Fi ,FF;，,… 


Glm) 来 确定 


ZEM X 的 相关 阵 出 发 ,oj = D 

下 面 我 们 根据 表 1 给 出 的 数据 ,对 某 农 业 生 态 经 济 系统 做 主 成 分 分 析 。 
:人 口 密度 C 人 /km ) 
2 :人均 耕 地 面积 (hm’) 
:森林 覆盖 (%%) 
:农民 人 均 纯 收入 (元 / AD 
:人 均 粮 食 产量 (kg/ AO 
:经 济 作物 占 农 作物 播种 面积 比例 (%) 
:耕地 占 土地 面积 比率 (%) 
:果园 与 林地 面积 之 比 (%) 
:灌溉 田 占 耕 地 面积 之 比 (%) 


某 农业 生态 经 济 系统 各 区 域 单元 的 有 关 数 据 


例 3 


Tı 


*1 


CF, Pom 的 确定 是 通过 方差 (信息 ) 累计 贡献 率 


Gn) = Su a 
当 累 积 贡 献 率 大 于 85% 时 ,就 认为 能 足够 反映 原来 变量 的 信息 了 ,对 应 的 m 就 是 抽取 
的 前 mx 个 主 成 分 。 
(4) 计算 主 成 分 载荷 
l; = pF;,X)) = àiu; Gj = 12,7, 


X3 

0. 16. 101 | 18.492 2. 231 26. 262 

141.503 | 1.684 24.301 | 1752.35 | 452.26 | 32.314 | 14.464 1.455 27. 066 
100.695 | 1.067 65.601 | 1181.25 | 270.12 | 18.266 | 0.182 7.474 12. 489 
143.739 | 1.336 33.205 | 1436.12 | 354.26 | 17.486 | 11.805 1.892 17. 534 
131.412 | 1.623 16.607 |1405.69 | 586.59 | 40.683 | 14.401 | 0.303 22. 932 
68. 337 2.032 76.204 |1540.29 | 216.39 8. 128 4. 065 0.011 4. 861 
95. 416 0. 801 71.106 | 926.35 | 291.52 8.135 4. 063 0. 012 4. 862 
62.90 | 1.652 | 73.307 |1501.24 | 225.25 | 18.352 2. 645 0. 034 3. 201 
86. 624 0. 841 68.904 | 897.36 | 196.37 | 16.861 5.176 0. 055 6. 167 
91. 394 0. 812 66.502 | 911.24 | 226.51 | 18.279 5. 643 0. 076 4. 477 
76.912 0. 858 50.302 | 103.52 | 217.09 | 19.793 4. 881 0. 001 6. 165 
51. 274 1.041 64.609 | 968.33 | 181.38 4. 005 4. 066 0. 015 5. 402 
68. 831 0. 836 62.804 | 957.14 | 194.04 9. 11 4. 484 0. 002 5. 79 
77.301 0. 623 60.102 | 824.37 | 188.09 | 19.409 5. 721 5. 055 8. 413 
68.001 | 3. 0. 01 3. 425 

4. 0. 011 5.593 

6. 0. 154 8. 701 
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141. 473 


814. 21 


193. 46 


137. 761 


1124. 05 


228. 44 


805. 67 


175. 23 


1313. 11 


BE: CD 求 其 相关 系数 和 矩阵 ,得 表 2 


236. 29 


表 2 相关 系数 矩阵 

Xi 1 — 0.327 | —0.714 | —0. 336 | 0.309 0. 408 0.79 0. 156 0. 744 
X — 0.327 ] — 0.035 0.644 | 0.42 0. 255 0. 009 0.078 0.094 
X3 — 0. 714 | — 0. 035 1 0. 07 Lo 74  [-0.755 | 一 0.93 上 o. 109 — 0. 924 
X4 — 0. 336 | 0. 644 0.07 1 0. 383 0.069 |— 0.046 —0.031 0. 073 
Xs 0. 309 0.42 | —0.74 0. 383 | 1 0. 734 0. 672 0. 098 0. 747 
X6 0. 408 0.255 | —0. 755 0.069 | 0.734 1 0. 658 0. 222 0. 707 
X: 0. 79 0.009 | —0.93 | — 0.046 | 0.672 0. 658 1 [- 0. 03 0. 89 
Ts 0.156 | — 0.078 | — 0.109 | — 0. 031 0. 098 0.222 | 一 0.03 1 0. 29 
Xs 0. 744 0. 094 | — 0. 924 0.073 | 0.747 0. 707 0. 89 0. 29 1 


(2) 由 相关 系数 矩阵 计算 特征 值 , 以 及 各 个 主 成 分 的 贡献 率 与 累计 贡献 率 ( 表 3), 由 表 3 
可 知 , 第 1 第 2 第 3 主 成 分 的 累计 贡献 率 已 高 达 86. 596%( 大 于 85%), 故 只 需要 求 出 第 1、 


5 2.58 3 主 成 分 F FF 即 可 。 


RI 特征 值 及 主 成 分 贡献 率 
累计 贡献 率 /% 

F, 4. 661 51. 791 51. 791 
F, 2. 089 23. 216 75. 007 
F; 1. 043 11. 589 86. 596 
F, 0. 507 5. 638 92. 234 
F; 0. 315 3. 502 95. 736 
Fs 0. 193 2.14 97. 876 
F; 0. 114 1.271 99. 147 
Fs 0.045 3 0. 504 99. 65 

F, 0. 0315 0. 35 100 


(3) Xt FF EE A 
认 选 项 的 输出 ) 。 


表 4 


因子 载荷 矩阵 


82.91 


8 


占 方差 的 百分数 /% 


= 4,661 0,4, = 2.089 0,4， = 1.0430 分 别 求 因子 载荷 矩阵 (SPSS 上 默 


80. 191 
92. 948 
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续 表 


Fi F: F; 占 方差 的 百分数 /% 
x 0. 004 2 0. 868 0. 003 7 75. 346 
E 0. 813 0. 444 — 0. 0011 85. 811 
Xs 0. 819 0.179 | 0. 125 71. 843 
x; 0. 933 — 0. 133 — 0. 251 95. 118 
E 0. 197 —0.1 0. 97 98. 971 
ES 0. 964 — 0. 0025 0. 009 2 92. 939 


CD 在 表 4 中 每 一 列 除 于 V3; ,得 到 主 成 分 分 析 的 第 i 个 主 成 分 的 系数 。 
RS 主 成 分 系数 矩阵 


F F, F: 占 方差 的 百分数 / % 

zi 0. 342298 — 0. 36808 — 0. 00597 82. 918 

zs 0. 056973 0. 613698 — 0. 00274 80. 191 

m — 0. 44652 0. 006642 0. 009302 92. 948 

zi 0. 001945 0. 600552 0. 003623 75. 346 

zs 0. 376575 0. 307195 — 0. 00108 85. 811 

m 0. 379354 0. 123847 — 0. 122396 71. 843 

z: 0. 432158 — 0. 09202 — 0. 24577 95. 118 

m 0. 091249 — 0. 06919 0. 949794 98. 971 

Ts 0. 446516 — 0. 00173 0. 009008 92. 939 

分 析 : 

(1) 第 1 主 成 分 Fi 与 x1 ,Xs ,x6 ,2X1,Xa 呈现 出 较 强 的 正 相 关 , 与 zs 呈现 出 较 强 的 负 相 
关 , 而 这 几 个 变量 则 综合 反映 了 生态 经 济 结构 状况 ,因此 可 以 认为 第 1 主 成 分 F 是 生态 经 
济 结构 的 代表 。 


(2) 第 2 主 成 分 与 ,zyzs 呈现 出 较 强 的 正 相 关 ,与 xi 呈现 出 较 强 的 负 相 关 , 其 中 ， 
除了 zi 为 人 口 总 数 外 ,zyzri,zs 都 反映 了 人 均 占 有 资源 量 的 情况 ,因此 可 以 认为 第 2 主 成 
分 F 代表 了 人 均 资源 量 。 

(3) 第 3 主 成 分 F 与 zs 呈现 出 的 正 相 关 程 度 最 高 ,其 次 是 zs ,而 与 zx; 呈 负 相关 ,因此 
可 以 认为 第 3 主 成 分 在 一 定 程 度 上 代表 了 农业 经 济 结构 。 

(4) 另外 , 表 4 中 最 后 一 列 ( 占 方差 的 百分数 ) ,在 一 定 程度 上 反映 了 3 个 主 成 分 Fl ,下 ,， 
F, 包含 原 变 量 (zi ors otn 的 信息 量 多 少 。 

显然 ,用 3 个 主 成 分 FiF: Fs 代替 原来 9 个 变量 (x ,zs，… ,zxo) 描述 农业 生态 经 济 系 
统 , 可 以 使 问题 更 进一步 简化 .明了 。 

最 后 ,应 当 认识 到 主 成 分 分 析 方 法 适用 于 变量 之 间 存 在 较 强 相关 性 的 数据 ,如 果 数 据 相 
关 性 较 弱 ,运用 主 成 分 分 析 后 不 能 起 到 很 好 的 降 维 作用 , 即 所 得 的 各 个 主 成 分 浓缩 原始 变量 
信息 的 能 力 差 别 不 大 ,一 般 认为 当 原始 数据 大 部 分 变量 的 相关 系数 都 小 于 0. 3 时 ,运用 主 成 
分 分 析 不 会 取得 很 好 的 效果 。 
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用 oirditaddl ik 


本 章 思考 与 练习 


1. 试 述 主 成 分 分 析 的 基本 思想 , 主 成 分 分 析 的 作用 体现 在 何 处 ? 
2. 试 述 根据 协 差 阵 进 行 主 成 分 分 析 和 根据 相关 阵 进行 主 成 分 分 析 分 区 别 。 
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第 七 章 
因子 分 析 


Boe Pair 


因子 分 析 (Factor Analysis) 是 指 研究 从 变量 群 中 提取 共性 因子 的 统计 技术 。 最 早 由 英 
国 心理 学 家 C. E. 斯 皮尔 曼 提 出 。 他 发 现 学 生 的 各 科 成 绩 之 间 存 在 着 一 定 的 相关 性 ,一 科 成 
绩 好 的 学 生 ,往往 其 他 各 科 成 绩 也 比较 好 ,从 而 推 想 是 否 存在 某 些 潜在 的 共性 因子 ,或 称 某 
些 一 般 智 力 条 件 影响 着 学 生 的 学 习 成 绩 .因子 分 析 可 在 许多 变量 中 找 出 隐藏 的 具有 代表 性 
的 因子 ,将 相同 本 质 的 变量 归 入 一 个 因子 ,可 减少 变量 的 数目 ,还 可 检验 变量 间 关 系 的 假设 。 

因子 分 析 不 仅仅 可 以 用 来 研究 变量 之 间 的 关系 ,还 可 以 用 来 研究 样品 之 间 的 相关 关系 ， 
通常 前 者 称 之 为 R 型 因子 分 析 , 后 者 称 之 为 Q 型 因子 分 析 。 本 章 着 重 介 绍 R 型 因子 分 析 。 


7.1 因子 分 析 的 基本 理论 - 


7.1.1 因子 分 析 的 数学 模型 

本 节 从 一 个 例子 开始 ,直观 地 引出 因子 分 析 的 数学 模型 。 

由 50 道 题 组 成 的 一 套 综合 素质 测试 卷 ,题目 涉及 :语言 表达 能 力 、 逻 辑 思 维 能 力 、 对 事 
物 的 敏锐 程度 、 思 想 修养 .兴趣 爱好 、 生活 常 识 等 方面 ,第 i 位 应 试 者 在 各 题 上 的 得 分 
(En sL tt s Liso ) 是 可 观测 的 ,可 看 作 一 个 50 维 变 量 (X ,Xs,…,X;so) 的 取 值 ,每 道 题 上 的 
得 分 是 表面 现象 ,应 试 者 在 语言 表达 能 力 、 逻 辑 思 维 能 力 、 对 事物 的 敏锐 程度 、 思 想 修养 、 兴 
趣 爱 好 、 生 活 常识 等 方面 ( 称 公 共 因 子 ) 的 能 力 大 小 才 是 本 质 的 ,但 是 这 每 个 公共 因子 都 比 
较 抽 象 , 是 潜在 的 ,难以 直接 加 以 观测 或 度量 ,我 们 希望 充分 利用 应 试 者 在 各 题 上 的 得 分 
(xin ,Tw，"…，,Xiso ) 人 信息, 分析 计 算出 应 聘 者 在 每 个 公共 因子 方面 的 水 平 高 低 。 这 就 是 因子 分 
析 要 解决 的 问题 。 

设 有 m 个 公共 因子 ,由 于 它们 是 潜在 且 不 可 观测 的 ,形式 上 记 为 (Fi,F,,…,F, ) ,假设 
第 i(i = 1,2,…,50) 小 题 的 测试 分 数 X, 可 表示 为 

Xi 一 anFi 十 azFz 十 … 十 aa 十 se， (i= 1,2,°,p) 

这 意味 着 我 们 试图 通过 m 个 潜在 的 公共 因子 (Fi Fr Fa RRE à 小 题 的 测试 分 数 
X; 线性 地 加 以 解释 。 

其 中 系数 an ,ais，… ,a 称 因子 载荷 ,用 来 表达 第 i 小 题 的 测试 分 数 X; 反映 出 的 各 公共 
因子 方面 的 能 力 。 

e; 表达 了 第 ; 小 题 的 测试 分 数 X, 不 能 被 m 个 公共 因子 线性 解释 的 部 分 , 称 为 特殊 因子 。 
特殊 因子 也 不 可 观测 ,通常 假定 se ~ N (0,0? ) ,这 里 的 of 作为 特殊 因子 的 方差 ,可 理解 为 特 
殊 因子 的 强度 的 度量 。 
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= DES * é 
一 
a 


为 了 便于 研究 ,并 消除 由 于 观测 值 量 纲 的 差异 及 数量 级 不 同 所 造成 的 影响 ,将 样本 观测 
数据 进行 标准 化 处 理 ,使 标准 化 后 的 变量 均值 为 0 ,方差 为 1 。 为 方便 起 见 把 原始 变量 及 标准 
化 后 的 变量 均 用 X 表示 。 

根据 前 述 的 思路 ,给 出 R 型 因子 分 析 的 数学 模型 . 

jn = an F, Hay Fo +e + ainF mn te 


X» ag Fi | Ao Fy, | Pee | Amf m E Ez 


ps = an Fı Fay F; -pa db ge Fas 十 全 


引入 矩阵 记号 : 
XxX, a 12 aim F, £1 
X d» 22 Q2» F, E2 
X = 一 ,A = " SR = JE = 
X, Gy åp “= Qm Fn £5 
其 中 矩阵 A 称 因 子 载荷 矩阵 。 
模型 可 表达 为 
X = AF +e 
且 满 足 : 
(l)m< p; 
(2)Cov(F,e) = 0 EI F Mle 是 不 相关 的 ; 
1 0 
1 
(3) DCF) = s = I, Bl Fi, F: Tan e 不 相关 和 且 方 差 皆 为 1, 此 时 称 因 子 模 
0 1 
型 为 正 交 因子 模型 ; 
oi 0 
Gem T. 即 ei ,es ,vew 不 相关 且 方差 不 同 。 
0 o> 


因子 分 析 的 任务 ,首先 是 估计 出 {a;} 和 方差 {oi } ,然后 将 这 些 抽象 的 因子 {F;} 赋予 有 
实际 背景 解释 或 说 给 以 命名 。 最 后 ,依据 样品 p 项 可 观测 指标 值 Cra emo stt ,zi ) ,希望 能 测 
算出 该 样品 在 各 公共 因子 上 的 水 平 高 低 ( 称 因子 得 分 )。 

7.1.2 因子 模型 中 的 几 个 统计 特征 

为 了 便于 对 因子 分 析 计 算 结果 做 解释 ,将 因子 分 析 数 学 模型 中 各 个 变量 的 统计 意义 加 


以 说 明 是 十 分 必要 的 。 

假定 因子 模型 中 ,各 个 变量 以 及 公共 因子 ,特殊 因子 都 已 经 是 标准 化 (均值 为 0, 方 差 为 
1) 的 变量 。 

(1) 因子 载荷 的 统计 意义 

已 知 模型 : 
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Xi = anF, + ay F, | v, | ayF; soe Gin Fp Fê: 


则 Cov(X;,F,) = Cov( PajF; t e, F;) = ay 


Mla, EX: 5S F, 的 协 方差 ,而 注意 到 X, SPF, 都 是 均值 为 0, 方 差 为 1 的 变量 ,因此 ,a; 
同时 也 是 X, 5 F, 的 相关 系数 。 故 因子 载荷 a; 表示 X. RMP, 的 分 量 ( 比 重 ) , 它 反 映 了 第 i 
个 变量 在 第 j 个 公共 因子 上 的 相对 重要 性 。 

(2) 变量 共同 度 的 统计 意义 

所 谓 变量 X. 的 共同 度 定义 为 因子 载荷 阵 A 中 第 i 行 元 素 的 平方 和 , 即 


h = vie i= 1,,p 
为 了 说 明 它 的 统计 学 意义 ,将 下 式 两 边 求 方差 , 即 : 
X, = an F, Hag F +0 agF; He anF n,n +e, 
DCGX;) = ah D(F) +42 DCF) + Ta D(F;) + +a), DEn) + DC) 
=hi +a; 
由 于 X 已 经 标准 化 , 故 有 
= h +e; 

上 式 表明 共同 度 h 与 剩余 方差 o? 有 互补 的 关系 ,请 越 大 表明 X: 对 公共 因子 的 依赖 程 
度 越 大 ,例如 大 三 0.97 则 说 明 X, 的 97%% 的 信息 都 被 所 选取 的 公共 因子 说 明了 ,公共 因子 
能 解释 X; 方差 的 比例 越 大 ,因子 分 析 的 效果 也 越 好 。 

(3) AAF F; 的 方差 贡献 的 统计 意义 

将 因子 载荷 阵 A 中 各 列 元 素 的 平方 和 记 为 


b 
S = 9a) jelcp 
i=l 


Wk S, 为 公共 因子 F; 对 X 的 贡献 , 即 S; 表示 同一 公共 因子 Ff; 对 诸 变量 所 提供 的 方差 贡 
献 之 和 , 它 是 衡量 公共 因子 相对 重要 性 的 指标 。 


7.2 ”因子 载荷 阵 的 估计 方法 


因子 分 析 可 以 分 为 确定 因子 载荷 ,因子 旋转 及 计算 因子 得 分 3 个 步骤 ,因子 分 析 的 首要 
任务 是 根据 样本 数据 估计 载荷 矩阵 A。 估 计 A 的 方法 有 很 多 种 : 主 成 分 法 .最 小 二 乘法 . 极 大 
似 然 法 .a 因子 提取 法 等 .这 里 仅 介绍 使 用 较为 普遍 的 主 成 分 法 。 

设 随机 变量 XX 二 (Xi XO 的 协 差 阵 为 2》) A Sas Se Sa, > 0D) 的 特征 根 ， 
us sus vtt ,us 为 对 应 的 标准 正 交 化 特征 向 量 ,根据 线性 代数 的 知识 有 : 
Ài 0 


EM 


p 

/ Li 

U = > Aju ju ; 
i=] 


0 à, 
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A 4 元 , 统 it ist, a E 实验 


, 
Ai ui 


= (Aims …， fA, us ) 


Apu’, 
im = 力 , 由 因子 模型 :X = AF +e, DCF) = 1 ,可 得 
DCX) = D(AF)+D(e) = AD(F)A’+D(e) = AA’ + D(e) 

综合 上 面 两 个 协 方差 的 式 子 , 可 得 : 


Sai ui 
> = (Virus s VA, Uu, ) 
"NT 


>) = AA' + Dee) 
在 变量 共同 度 岂 ”i 二 1,…,p 都 很 大 的 情况 下 ,可 以 假设 D(e) ==0, 那 么 我 们 可 得 A 的 
一 个 估计 :A 二 (VNUw，…， Vhsus) ,也 就 是 说 除 常数 VX 外 ,第 7 列 因子 的 载荷 恰 是 第 
ji 个 主 成 分 的 系数 , 故 称 为 主 成 分 法 。 
在 假设 Die) = 0 的 情况 下 我 们 已 经 得 到 因子 载荷 矩阵 A, 然 而 , 它 实际 上 是 毫 无 价值 
的 ,因为 我 们 的 目的 是 寻求 用 少数 几 个 公共 因子 解释 , 故 略 去 后 面 的 p 一 m XA ed Win FH 
+ A,u,u, xt >) 的 贡献 ,于 是 得 到 : 
Ai ui 


D ~ (riis s Mintin = AA’ 


Vim U m 
上 式 是 假定 了 因子 模型 中 特殊 因子 是 不 重要 的 ,因而 可 以 从 >) 的 分 解 中 忽略 掉 特 殊 因子 
的 方差 。 


当 未知 ,可 用 样本 协 差 阵 - | 去 代替 ,要 经 过 标准 化 处 理 , 则 -全 | 与 相关 阵 尺 相 


同 ,仍然 可 做 上 面 类 似 的 表示 。 

一 般 设 i 三 和 宇 … SA, 为 样本 相关 阵 R 的 特征 根 ,相应 的 标准 正 交 化 特征 向 量 为 
Uy Ss ett sups 设 m 二 pp, 则 因子 载荷 矩阵 的 估计 A 二 (4;) 即 

A Fu cA off €,2 

那么 如 何 确定 公 因 子 的 数目 m 呢 ? 一 般 而 言 ,这 取决 于 问题 的 研究 者 本 人 ,对 于 同一 问 
题 进行 因子 分 析 时 ,不 同 的 研究 者 可 能 会 给 出 不 同 的 公 因子 数 。 当 然 , 有 时 候 有 数据 的 本 身 
特征 可 以 很 明确 地 确定 出 因子 的 数目 。 当 用 主 成 分 法 进行 因子 分 析 时 ,也 可 以 借鉴 确定 主 成 
分 个 数 的 准则 ,如 所 选取 的 公 因子 的 信息 量 的 和 达到 总 体 信息 量 的 一 个 合适 的 比例 为 止 .但 
对 这 些 准 则 不 应 生 搬 硬 套 ,应 具体 问题 具体 分 析 ,总 之 要 使 所 选取 的 公 因 子 能 够 合理 地 描述 
原始 变量 相关 阵 的 结构 ,同时 要 有 利 因子 模型 的 解释 。 

例 1 假定 某 地 固定 资产 投资 率 zi ,通货 膨胀 率 zx; ,失业 率 x; ,相关 系数 矩阵 为 : 


] 1/5 —1/5 
1/5 1 2/5 | 
一 1/5 2/5 1 
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St A 


因子 分 析 
试用 主 成 分 分 析 法 求 因子 分 析 模 型 。 
fF :特征 根 为 :A1 = 1.4,A, = 1.1464,A; = 0. 4536 
0 0.8881 | — 0.4597 
U = |0.7071 0.3251 0. 6280 | 
0.7071 — 0.3251 — 0.6280 


A= ( Ài Uis VAz uz, As us ) 
| 0 0. 9509 一 0. J 


0.8367 0.3481 0. 4230 
0.8367 — 0.3481 — 0.4230 

x, = 0. 9509F; — 0. 3096 F; 

x, = 0. 8367F, + 0. 3481F; + 0. 4230F; 
Za = 0. 8367F, — 0. 3481F, — 0. 4230F; 


e 一 84.88 中 ,可 取 前 两 个 因子 PP, DARAT BART F 为 物价 就 


业 因子 ,对 X 的 贡献 为 1.4。 第 二 公 因 子 F: 为 投资 因子 ,对 XX 的 贡献 为 1.1464。 


7.3 因子 旋转 


在 主 成 分 分 析 中 ,每 个 主 成 分 相应 的 系数 a; 是 唯一 确定 的 ,与 此 相反 ,在 因子 分 析 中 ， 
每 个 因子 的 相应 系数 不 是 唯一 的 , 即 因子 载荷 矩阵 不 是 唯一 的 。 

若 械 为 任 一 m X m 阶 正 交 阵 , 则 因子 模型 :X = AF 十 se, 可 写成 ， 

X = (AP) QF) +e 

且 仍 然 满 足 约束 条 件 : 

(HPF) = FOI = I, 

(2)Cov(I’F ,s) = IXCov(F.e) = 0 

所 以 ,TF 也 是 公共 因子 ,AP 也 是 因子 载荷 阵 。 

因子 载荷 的 不 唯一 性 是 一 个 非常 有 利 的 性 质 ,因为 我 们 建立 因子 分 析 的 目的 不 仅仅 是 
要 找 出 公共 因子 以 及 对 变量 进行 分 组 ,更 重要 的 要 知道 每 个 公共 因子 的 意义 ,以 便 进 行进 一 
步 的 分 析 ,如果 每 个 公共 因子 的 含义 不 清 , 则 不 便于 进行 实际 背景 的 解释 。 由 于 因子 载荷 阵 
是 不 唯一 的 ,所 以 可 以 对 因子 载荷 阵 进 行 旋转 (用 一 个 正 交 阵 右 乘 A) 使 因子 载荷 阵 的 结构 
简化 ,使 载荷 矩阵 每 列 或 行 的 元 素平 方 值 向 0 和 1 两 极 分 化 。 也 就 是 说 使 每 个 变量 仅 在 一 个 
公共 因子 上 有 较 大 载荷 ,而 在 其 他 公共 因子 上 的 载荷 较 小 .这 种 变换 因子 载荷 阵 的 方法 称 为 
因子 轴 的 旋转 ,而 旋转 的 方法 有 多 种 ,如 正 交 旋 转 、 斜 交 旋 转 等 ,本 节 只 介绍 常用 的 方差 最 大 
正 交 旋转 法 。 

首先 考虑 m = 2 的 情形 。 


QI ai? 
s CQ21 22 
设 因子 载荷 阵 A = | . 

api p 
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对 AA 按 行 计算 共同 度 h? = E d—1l.se.p,25 E SUA AERE X, 的 共同 度 之 间 的 差异 
所 造成 的 不 平衡 ， 需 对 中 的 元 素 进行 规格 化 处 理 ， 即 
(a'g = al fh? 
对 于 规格 化 后 的 矩阵 ,为 书写 方便 仍 记 为 A ,施行 方差 最 大 正 交 旋转 。 
设 旋转 矩阵 为 : . 
| (cos $ — sin $ 
fed ) 


sing cos ¢ 


、 cos ¢ —sin ¢ 
id B= AT = A| ) 
sin ¢ cos $ 
ancos $-- apsin d. — ansin 区 十 aizcos $ 
4,,COS 8 十 apsing 一 amsin 风 十 Cpcos ġ 
bl: bye 
bp bp 


E Z= TF 的 因子 载荷 矩阵 。 
正如 前 面 所 讲 ,我 们 希望 所 得 结果 能 使 载荷 矩阵 的 每 一 列 元 素 的 绝对 值 尽 可 能 向 1 和 0 
两 极 分 化 , 即 原始 变量 中 一 部 分 主要 与 第 一 因子 有 关 , 男 一 部 分 主要 与 第 二 因子 有 关 , 也 就 
ERR (bn, eo Os (bins cn bh) 这 两 组 的 方差 尽量 大 ,为 此 , 正 交 旋转 的 角度 必 
须 满 足 使 旋转 后 得 到 因子 载荷 阵 的 总 方差 Vi + Ve V 达到 最 大 值 , 即 : 
V = V, +V; = max 


aV =, ， 
2$ 


其 中 v-ixa r- (42 MTS 


经 过 计算 ,可 得 旋转 角度 可 按 下 面 的 公式 求 得 ， 


z D—2ABp 
hoe! = n — YD — gg 
_ faa’ ajz |» pnä 
其 中 : pi i» o) nis D 
p b 
A= Nif B = Sy 


C= D o=) > D= 2 uv; 
如 果 公 共 因 子 多 于 两 个 , 我们 可 以 逐次 对 每 两 个 进行 上 述 的 旋转 , 设 公 共 因 子 数 
m>2, 
(1) 第 一 轮 旋转 ,每 次 取 两 个 ,全 部 配对 旋转 ,变换 共 需 进行 mm(m — D/2 次 ; 
(2) 对 第 一 轮 旋转 所 得 结果 用 上 述 方法 继续 进行 旋转 ,得 到 第 二 轮 旋转 结果 ,每 一 次 旋 
转 后 ,矩阵 各 列 平方 的 相对 方差 之 和 总 会 比 上 一 次 有 所 增加 ; 
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(3) 当 总 方差 的 改变 不 大 时 ,就 可 以 停止 旋转 。 


7.4 因子 得 分 


因子 分 析 模 型 建立 后 ,还 有 一 个 重要 的 作用 是 应 用 因子 分 析 模 型 去 评价 每 个 样品 在 整 
个 模型 中 的 地 位 , 即 进行 综合 评价 ,例如 在 前 面 7.1 节 的 例子 中 ,通过 学 生 的 成 绩 , 我 们 希望 


了 解 学 生 的 语言 表达 能 力 .逻辑 思 维 能 力 、 对 事物 的 敏锐 程度 等 因子 的 量化 值 ,这 时 需要 将 
公共 因子 用 变量 的 线性 组 合 来 表示 。 
因子 分 析 的 数学 模型 为 : 
X; au anr … aim | | Pi 
X | |an az a»? F, 
X, Gp Gye? dus LE 


原 变 量 被 表示 为 公共 因子 的 线性 组 合 , 当 载荷 矩阵 旋转 之 后 ,公共 因子 可 以 做 出 解释 ， 
通常 的 情况 下 ,我 们 还 想 反 过 来 把 公共 因子 表示 为 原 变量 的 线性 组 合 。 

因子 得 分 函数 : 

F; = BiXi ter HBX, 1 一 1 2，……77 

可 见 ,要 求 每 个 因子 的 得 分 ,必须 求 得 分 函数 的 系数 ,而 由 于 p 放 > m, 所 以 不 能 得 到 精确 
的 得 分 ,只 能 通过 估计 。 

估计 因子 得 分 有 很 多 种 方法 ,如 加 权 最 小 二 乘法 ,回归 法 等 .下 面 仅 介绍 回归 法 , 它 是 
1939 年 由 Thomson 提出 来 的 ,所 以 又 称 为 汤姆 森 回 归 法 。 

Thomson 假设 公共 因子 可 以 对 p 个 变量 做 回归 ,由 于 假设 变量 及 公共 因子 都 已 经 标准 
化 了 ,所 以 常数 项 为 0。 即 回归 方程 为 : 


E, = bX +6,X, j—d.eem 
b, by biz ud bip 
b b bo» mre bs 
令 B=| =| > : “|, 则 «=F = BX 
b,n bmi Om t bmp 


我 们 现在 仅 知 道 由 样本 值 可 得 因子 载荷 阵 A, 由 因子 载荷 的 意义 知 : 
ay = Yar, = EQCGF;) = ELX; On Xi ++ + bp Xp] = ba Ya +2 + bY 


= [Ya Ya "eU Yi | 


WU ,我 们 有 如 下 的 方程 组 : 
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Yu Ys tt Np | [Oa ai; 
Yau Yoo 79 Yop bj; | [3z 
Yn Fa = YX pp By pj 


则 可 得 :RB = 二 A—B = A'R” 
其 中 


Yu Nie Vip 
Yn VY 22 Y2p 
R= : ，。| 为 原始 变量 的 相关 系数 矩阵 
Y pi Y p2 Y pp 
Qi Q2 Ql 
A 二 |“ “| 为 载荷 矩阵 
Op Qp Q pm 
则 F = BX = A'R” X 


Hp Xs (OX,,X vens X, ,这 就 是 估计 因子 得 分 的 计算 公式 。 


7.5 ”因子 分 析 的 步骤 与 逻辑 框图 


7.5.1 因子 分 析 的 步骤 
设 原 始 数 据 资料 如 下 : 


Xu X12 Tip 
Yo) X22 T2, 
X i X2 Xap 


(1) 计算 指标 (变量 ) 的 相关 系数 阵 R. 
(2) 求 R 的 特征 根 :Xi DA Z9 Ay 之 00 和 …vao 为 对 应 的 单位 正 交 化 特征 向 量 ， 


可 根据 累计 贡献 率 4,/ DA, > 85%, 取 前 mm 个 特征 根 ,根据 相应 的 单位 特征 向 量 得 出 因 
子 载荷 阵 ， 


Q1 ay S99 — (ip un VA Uiz MV Az es Uim VÀ» 


A Qn Qz OO am | [un VA Uz VAs ** Uzm VAm 


o ln ap o oam) lupi upsa * um Vin 
(3) 根据 A 对 {F;} 的 实际 含义 作出 适当 的 解释 , 若 含 义 不 清 , 则 对 A 做 施行 方差 最 大 正 


(4) 计算 因子 得 分 。 
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7.5.2 因子 分 析 的 逻辑 框图 


多 数 相关 
系数 >0.3 


求 公 因子 及 因子 载荷 


极 大 似 然 法 


| 主因 子 轴 法 | 


本 章 思 考 与 练习 


l. 试 述 主 成 分 分 析 与 因子 分 析 的 联系 与 区 别 。 
2. 因子 分 析 主 要 应 用 于 对 哪些 具体 问题 的 分 析 ? 
3. 因子 载荷 a; 的 统计 定义 是 什么 ? 它 在 实际 问题 分 析 中 的 作用 是 什么 ? 
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DAE ”典型 相关 分 析 


统计 分 析 中 ,一 般 用 简单 相关 系数 反映 两 个 变量 之 间 的 线性 相关 关系 ,用 复 相关 系数 反 
映 一 个 变量 与 多 个 变量 之 间 的 线性 相关 关系 。 典 型 相关 分 (Canonical Correlation Analysis) 
是 1936 年 由 Hotelling 在 将 线性 相关 性 推广 到 两 组 变量 的 讨论 中 提出 的 , 它 是 仿照 主 成 分 
分 析 ,把 多 变量 与 多 变量 之 间 的 相关 化 为 两 个 变量 之 间 的 相关 分 析 , 所 揭示 的 是 两 组 多 元 随 
机 变量 之 间 的 关系 。 

RAMAH, MH X = (X Xs X) Y = (Yi,Y,,…,Y,) 表示 ,要 研究 两 组 变量 
的 相关 关系 ,一 种 方法 是 分 别 研 究 X, ALY; 之 间 的 相关 关系 ,然后 列 出 相关 系数 表 进 行 分 
析 , 当 两 组 变量 较 多 时 ,这 种 做 法 不 仅 繁 琐 , 也 不 易 抓 住 问题 的 本 质 ; 另 一 种 做 法 采用 类 似 主 
成 分 分 析 的 做 法 ,在 每 一 组 变量 中 选择 才干 有 代表 性 的 综合 指标 (变量 的 线性 组 合 ) ,通过 研 
究 两 组 的 综合 指标 之 间 的 关系 来 反映 两 组 变量 之 间 的 相关 关系 。 例 如 ,在 经 济 学 中 研究 一 组 
物品 价格 与 消费 量 之 间 的 关系 ,如 猪肉 和 鸡蛋 的 价格 分 别 用 随机 变量 Xi ,X* 来 表示 ,猪肉 
与 鸡蛋 的 消费 量 分 别 用 随机 变量 Yi ,Ys 来 表示 ,要 研究 随机 变量 X = (Xi ,X:) 与 了 一 
(Y ,Y:) 的 关系 ,从 经 济 学 观点 就 是 希望 构造 一 个 Xi,Xs 的 线性 函数 U = ai Xi 十 as X; FK 
为 价格 指数 及 Yi Yo 的 线性 函数 V = an Y) Fas Ys 称 为 销售 指数 ,要求 它 们 之 间 具 有 最 大 
相关 性 ,这 就 是 一 个 典型 相关 分 析 的 问题 .又 如 为 了 研究 扩张 性 财政 政策 实施 以 后 对 宏观 经 
济 发 展 的 影响 ,就 需要 考察 有 关 财 政 政策 的 一 系列 指标 ,如 财政 支出 总 额 的 增长 率 、 财 政 赤 
字 增 长 率 、 国 债 发 行 额 的 增长 率 、 税 率 降低 率 等 与 经 济 发 展 的 一 系列 指标 如 国内 生产 总 值 增 
长 率 、 就 业 增长 率 、 物 价 上 涨 率 等 两 组 变量 之 间 的 相关 程度 。 这 时 , 常 令 随机 向 量 X 一 (X,， 
Xi X 表示 p 个 财政 政策 指标 , 令 Y 二 (Yi ,Ys，,…,Y,) 为 gq 个 宏观 经 济 的 指标 ,构造 
综合 的 财产 政策 指标 ,综合 的 宏观 经 济 指标 ,U = au Xi 十 aizXz 十 "十 aipXprV 二 ani 十 
azzY d c as Y, ,研究 扩张 性 财政 政策 实施 以 后 对 宏观 经 济 发 展 的 影响 ,就 是 研究 随机 U 
与 V 之 间 的 关系 。 

典型 相关 分 析 的 基本 思想 和 主 成 分 分 析 非 常 相 似 。 首 先 在 每 组 变量 中 找 出 变量 的 一 个 
线性 组 合 ,使 得 两 组 的 线性 组 合 之 间 具 有 最 大 的 相关 系数 。 然 后 选取 相关 系数 仅 次 于 第 一 对 
线性 组 合并 且 与 第 一 对 线性 组 合 不 相关 的 第 二 对 线性 组 合 , 如 此 继续 下 去 ,直到 两 组 变量 之 
间 的 相关 性 被 提取 完毕 为 止 。 因 此 ,典型 相关 分 析 是 把 原来 两 组 变量 之 间 的 相关 ,转化 为 研 
究 从 各 组 中 提出 的 少数 几 个 典型 变量 之 间 的 典型 相关 ,从 而 减少 研究 变量 的 个 数 。 被 选 出 的 
线性 组 合 配对 称 为 典型 变量 ,它们 的 相关 系数 称 为 典型 相关 系数 .典型 相关 系数 度量 了 这 两 
组 变量 之 间 联 系 的 强度 。 
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8.1 典型 相关 分 析 的 数学 描述 


设 有 两 组 随机 向 量 ,X 代表 第 一 组 的 p 个 变量 ,Y 代表 第 二 组 的 g PEE LUE pq. 


D(X) = > DO = »1,:CovOGY) = >), = Don 
FX, 
X; 
^ 2 
Zio oxi = BE - , 则 D(Z) = 5 as E, A 
d i Pin 2a 
£i 


LY, l 
根据 典型 相关 分 析 的 基本 思想 ,要 进行 两 组 随机 向 量 间 的 相关 分 析 ,首先 要 计算 出 各 组 
变量 的 线性 组 合 一 一 典型 变量 ,并 使 其 相关 系数 达到 最 大 .因此 ,我们 设 两 组 变量 的 线性 组 


合 分 别 为 : 


U LX: | l; X; 


V = mY, +t mY: 


 +1,X, SUX 
“++ mY, = m'Y 


其 中 vl = CL, ole ,*** ally ume = (mi (ma 。 m) 为 任意 非 零 常数 向 量 , 易 见 : 
DW) = DU'X) = l'Oov(X XL 一 人 >/ 


DWV) = Dim'Y) = m'Cos(Y.Y)m = m' 31 „m 


Cov(U,V) = l'Cov(X,Y)m = / $} „m 


FT ,im 


puv 


E d aim’ $3, m 


我 们 希望 寻找 使 相关 系数 达到 最 大 的 向 量 ! 与 六 ,由 于 随机 向 量 乘 以 常数 时 并 不 改变 
它们 的 相关 系数 ,所 以 ,为 防止 结果 的 重复 出 现 , 令 


DU) =U) t= 1 
DWV) = m' um —] 


那么 ,ouv = UD) mm 于 是 ,我 们 的 问题 就 成 为 在 约束 条 件 :D(U) = UD) 1,DCV) 


I 


m' m = 1 下 ,寻求 l,m 使 puv = 人 >， 7 达到 最 大 。 


8.2 总体 典型 相关 


在 约束 条 件 :DCU) = 5,0 — 1,DV) = mm》),m = 1 下 ,寻求 l,m 使 pw = 
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E oizdiladi 


lY] ,mm 达到 最 大 ,根据 条 件 极 值 的 求法 引入 Lagrange 乘 数 ,将 问题 转化 为 求 ， 
gm) = 'Ó),m- Dm 3], m— 0 (D 


AAR AE EF A. 是 Lagrange 乘 数 。 
根据 求 极 值 的 必要 条 件 得 


9 
af = mAd ul=0 
3 (2) 
m = Žial Pol =0 
将 上 式 分 别 左 乘 / Mm WAS. 
FQ; V 2 =9 
: (3) 
545 m VANS = 
HARA Dl = 1,m’>),,m 二 1] 则 有 
P Vm =À 
(4) 
m yt =v 


而 因为 (1 >) mm)’ = m $ y, 71, 所 以 和 一 /一 U>),m AMA = puv ,用 4 代替 方程 组 中 的 v， 
则 方程 组 (2) 写 为 : 


> amA ut=0 
(5) 
ni—ADdinm = 0 
由 (5) 的 第 二 个 式 子 ,我 们 可 得 到 : 
1 = 
th Di rm? (6) 
将 (6) 代入 (5) 的 第 一 个 式 子 , 得 : 
Be Tie Dal ADi (7) 
即 有 : 
20a 20s Zug =F dagt = (8) 
FA) ERGO 式 , 得 
dim Lilla Ltt oO (9) 
同 理 可 得 
San Da Di Dit m = 0 (10) 
i 
A= Scam je Hm 一 d dag Nh. 
(9) (10 可 表示 为 ， 
ae = AI 
(1D 
Bm = A:m 


70 


第 八 章 
典型 相关 分 析 
说 明 A? 既是 A 又 是 B 的 特征 根 ,/,m 就 是 其 相应 于 A MB 的 特征 向 量 。 
可 以 证 明 ,A 和 B 的 特征 根 和 特征 向 量 有 如 下 性 质 : 
1. A 和 B 具有 相同 的 非 零 特征 根 , 且 相 等 的 非 零 特征 根 数 目 等 于 p 
2. A 和 B 的 特征 根 均 在 0 — 1 之 间 。 
HERE A,B 的 特征 根 依次 为 : 
Ai > dg AE I 
对 应 于 A ARETE TS] REA Ly ol ote LEE. B 的 特征 向 量 为 m1 ,mz ,…,m ,这 些 特征 
根 及 相应 的 特征 向 量 满足 : 


| Al, = Xil; 
f (12) 
Bm; = Aim; 
DR 2g AT 的 特征 向 量 不 唯一 ,所 以 由 前 面 的 约定 可 知 ,规格 化 的 特征 向 量 满足 : 
DU) = Di= 1 


D(V) = m>) „m = 1 
再 者 ,为 了 讨论 方便 ,我 们 约定 4 = pov 总 是 大 于 零 的 ,这 很 容易 办 到 ,后 边 的 实例 会 做 相关 
的 讨论 ,以 后 我 们 讨论 的 特征 向 量 , 均 是 满足 以 上 约定 的 A,B 相应 的 特征 向 量 。 

因为 * = puv K pov. 最 大 值 也 就 是 求 的 最 大 值 ,因此 ,只 要 取 最 大 特征 值 At 的 平方 根 
A, D] U, 和 Vi 即 具有 最 大 的 相关 系数 , 令 Lom 为 Xf 对 应 于 人 A,B 相应 的 特征 向 量 ( 已 规格 
化 ) ,这 时 ,Ui 二 WX 与 Vi = mY 即 分 别 为 X SY 的 规格 化 的 线性 组 合 , 且 具 有 最 大 的 相关 
系数 Al 。 

综 上 所 述 , 有 如 下 定义 : 

定义 8.1 在 一 切 使 方差 为 1 的 线性 组 合 !X 5 m'Y 中 ,其 中 两 者 相关 关系 数 最 大 的 
Ui = LX B V, = mY 称 为 第 一 对 典型 相关 变量 ,它们 的 相关 系数 4 称 为 第 一 典型 相关 系 
数 。 

一 般 地 ,在 定义 了 i 一 1 对 典型 相关 变量 后 ,在 一 切 使 方差 为 1 且 与 前 i 一 1 对 典型 相关 
变量 都 不 相关 的 线性 组 合 U; = UX 5j V; = mY 中 ,其 两 者 相关 系数 最 大 者 称 为 第 i 对 典型 
相关 变量 ,其 相关 系数 称 为 第 i 对 典型 相关 系数 。 

由 上 述 推导 ,我 们 进一步 有 : 求 X 与 Y 的 第 i 个 典型 相关 系数 即 求 方 程 (11) 的 第 i 个 最 
大 根 , 而 第 i 对 典型 变量 即 为 U; = LX 5 V, = mY. RP Lm, 为 方程 (11) 4A — A; 时 所 
求 得 的 解 。 

我 们 不 加 证 明 地 给 出 典型 变量 以 下 的 两 个 性 质 : 

1 由 XiX eX, 所 组 成 的 典型 变量 U, U2 4° QU, 互 不 相关 ,同样 的 ， 由 Yi1,Y,,, 
Y, 所 组 成 的 典型 变量 Vi ,V;,…,V， 也 互 不 相关 , 且 它 们 的 方差 等 于 1。 即 有 : 

DU,) =1, DV )=1 (k=1,2,.,p) 
Cov(U;,U;) = 0, Cov(Vi,Vj))=0 GÆj) 
2. 同一 对 典型 变量 U; RV, 的 相关 系数 为 X; ,不 同 对 的 典型 变量 U,; RVG Aj) 间 互 
不 相关 , 即 有 
Ai 40 (2 = ji 1,2, 
Cov(U,,V;) = 40 iid jd 
0 G >p) 
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8.3 样本 典型 相关 


在 实际 分 析 应 用 中 ,总 体 的 协 差 阵 通 常 是 未 知 的 ,往往 需要 从 研究 的 总 体 中 随机 抽取 一 
个 样本 ,根据 样本 估计 出 总 体 的 协 差 阵 , 并 在 此 基础 上 进行 典型 相关 分 析 。 


X 
Be Z = | y | 服从 正 态 分 布 pa Qe 忆 ), 从 该 总 体 中 抽取 样本 容量 为 ”的 样本 ,得 到 下 


J| d AB EE : 
Xu Xp cen Xi, 
Xa X» "e X5, 
X = . . 
X Xs Xu 
"^ Y, 
Ya Yu Y, 
Y = . 
Y, Y. Y. 
样本 均值 向 量 
x-[* 1 i 
X= MEL. = n D XY = rp 
= oa | T 
样本 协 差 阵 5- n = 
us > 


"ES 
EI 


seb, 3) = Lay 230, PY, LESETT TAN 
由 此 可 得 矩阵 A 和 B 的 样本 估计 
A= dos Rs phe Pun 

B= ks Das D 2s 

如 前 所 述 ,求解 A 和 B 的 特征 根 及 其 相应 的 特征 向 量 , 即 可 得 到 所 要 求 的 典型 相关 变量 
及 其 典型 相关 系数 。 

这 里 需要 注意 , 若 样本 数据 矩阵 已 经 标准 化 处 理 , 此 时 样本 的 协 差 阵 就 等 于 

样本 的 相关 系数 矩阵 


由 此 可 得 和 矩阵 A 和 B 的 样本 估计 : 
A = Re Ry Ru Ra 
B Ry R, Ri R. 
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求解 A 和 B 的 特征 根 及 相应 的 特征 向 量 , 即 可 得 到 典型 变量 及 典型 相关 系数 。 此 时 相当 
于 从 相关 抢 阵 出 发 计算 典型 变量 。 


8.4 ”典型 相关 系数 的 显著 性 检验 


在 作 两 组 变量 的 典型 相关 分 析 之 前 ,首先 应 检验 两 组 变量 是 否 相 关 , 如 果 不 相 关 , 即 
CovCX,Y) 二 0, 则 讨论 两 组 变量 的 典型 相关 就 毫 无 意义 

因此 ,在 用 样本 数据 进行 典型 相关 分 析 时 应 就 两 组 变 PUTET 行 检验 。 即 
检验 假设 


Hoa =i; Fis D5 20 
ie 2 = [^ uisa Nee) ) ,根据 随机 向 量 的 检验 理论 可知, 用 于 检验 的 似 
然 比 统计 量 为 


Ay = AAL -[Ia-i5 

SN Ri T 
其 中 ,对 是 A AB RIER FRADE AT ZRÀPIRGUSImRÀALIA0SÁÉ nd» mg 
(Bartlett) 证 明 , 当 Ho 成 立时 ,Q =—mlnAy 近似 服从 y* CO ri. HEB m = Qi D — 3 


十 gq 十 1), 自 由 度 f = 加 。 在 给 定 的 显著 性 水 平 下, 当 由 样本 计算 的 Qo — y; 临界 值 时 TE 
绝 原 假设 ,认为 第 一 对 典型 变量 Di ,Y 存在 相关 性 ,其 相关 系数 为 人, 即 至 少 可 以 认为 第 一 
个 典型 相关 系数 是 显著 的 ,将 它 出 去 之 后 ,再 检验 其 余 的 p 一 1 个 典型 相关 系数 的 显著 性 ， 
这 时 计算 : 


-Ia-x ) 
则 统计 量 Q = 一 [xn 一 2 一 0.5(p 十 g 十 1) ]lInA; 近似 服从 自由 度 (p 一 1)(g 一 1) 的 卡 方 分 布 ， 


如 果 Q > x , 则 认为 4; 显著 , 即 第 二 对 典型 变量 Di V. 存在 相关 性 ,以 下 逐个 进行 检验 , 直 
到 某 个 人 不 显著 时 截止 。 


8.5 ”典型 相关 系数 的 步骤 及 实例 


典型 相关 分 析 计 算 步 又 
(一 ) 根据 分 析 目 的 建立 原始 矩阵 
原始 数据 矩阵 
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Xa 


X12 


To 


Tip Yn Me 
X2p | yn — yz 
Tnp Ya Yr 


Vig 
Yu 


Yn 


(二 ) 对 原始 数据 进行 标准 化 变化 并 计算 相关 系数 矩阵 


"v E «| 
Ra Re 

其 中 Ru Re 分 别 为 第 一 组 变量 和 第 二 组 变量 的 相关 系数 阵 ,Ri: 为 第 一 组 变量 和 第 二 组 变 
量 的 相关 系数 ,并 且 有 Re = Ra. 

(三 ) 求 典型 相关 系数 和 典型 变量 

计算 矩阵 A = Ri Ry» Re R AREE B= Re Ra Ri Ro 的 特征 值 和 特征 向 量 , 并 
规格 化 特征 向 量 , 则 分 别 得 典型 相关 系数 和 典型 变量 。 

(四 ) 检验 各 典型 相关 系数 的 显著 性 

例 1 康复 俱乐部 对 20 名 中 年 人 测量 了 三 个 生理 指标 :体重 (zl), 腰 围 (z2), 脉搏 
(xz3); 三 个 训练 指标 : 引 体 向 上 次 数 (y1) ,起 坐 次 数 (y2) ,跳跃 次 数 (y3) 。 分 析 生 理 指 标 与 训 
练 指标 的 相关 性 。 


*1 


1 
2 

3 

4 

5 

6 

7 

8 

9 

10 

T 

12 5 

13 154 34 64 14 215 105 
14 247 46 50 1 50 50 
15 193 36 46 6 70 31 
16 202 37 62 12 210 | 120 
17 176 37 54 4 60 i 25 
18 157 32 52 11 230 80 
19 | 156 33 54 | 15 225 73 
20 138 33 68 2 | no 43 
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第 八 章 


典型 相关 分 析 
解 : 由 表 1 数据 ,我 们 可 得 到 样本 协 差 阵 为 : 
Ti T2 Ta 3 X: Js 
Xi 579. 14 65. 36 — 61.86 — 48. 32 — 723. 63 — 272.18 
Xe 65. 36 9. 74 — 17. 74 — 8. 88 — 122. 87 — 29. 87 
zs — 61. 86 — 7.74 49. 39 5. 455 96. 445 12. 27 
yı — 48. 32 — 8. 88 9. 455 26. 5475 218. 6025 127. 665 
y: — 723. 63 — 122. 87 96. 445 218. 6025 3718. 848 2039. 635 
ys — 272.18 — 29. 87 12. 27 127. 665 2039. 635 2497.91 
则 我 们 可 得 到 : 
579.14 65.36 —61.86] _ 26.55 218.60 127.67 
>) 65.36 9.74  — 7.74 |; >),, = |218.60 3718.85 2039.64 
— 61.86 — 7.74 49.39 127.67 2039.64 2497.91 
. — 48.32 — 723.63 — 272.18] _ — 48.32  —8.88 5.46 
254 一 8.88 一 122.87 一 29.87 |,>5,, = | 一 723.63 — 122.87 96.45 
5. 46 96. 45 12. 27 — 272.18  — 29.87 12,27 
计算 >),, Lu 的 道 矩阵 ,可 得 
. 0. 00723237 — 0.047214 0.00165941 
>), = |— 0.047214 0.42549329 0. 00754531 
0. 00165941 0. 00754531 0. 02350784 
. 0.0732399  — 0. 0040789 — 0.00041 
>), = |—0.0040789  0.00071416 — 0. 00037 
— 0. 0004126 — 0.0003747 0.000727 
计算 得 : 
DAE — 0. 2459454  — 0.0551887 0. 04651367 
c 一 1 一 1 
A=), Dow Dee Qua = | 4.498811 0,90714323 — — 0. 7392212 
一 0.0575041 —0, 0138964 0, 01728371 
Soe 0.16178831  2.03428439 0. 223085 
D nd ^ 3l 1 
B= >), Det Dun 22,7 |0.04076171 — 0.54877371 — 0.091339 
— 0. 0328274 —0. 4227509 — 0. 03208 


求 得 特征 值 为 :XA? = 0. 632994993,A3 = 0. 040214862 ,A3 一 0.005267145。 典 型 相关 系数 分 别 


为 :Ai = 0. 796,2 = 0. 201,A3 = 0.073, 
利用 Matlab 求 得 :x (i = 1,2,3) 对 应 于 A 的 单位 特征 向 量 为 : 
li = (— 0. 0635,0. 9978, — 0.0166)’, 
la = (— 0. 202,0. 9757 » — 0,085)", 
lą = (— 0. 036,0. 7347 ,0. 6775)’, 
可 以 注意 到 单位 特征 向 量 的 元 素 的 平方 和 为 1, 但 是 ,我 们 要 求 的 约束 条 件 是 : 
DU) =U), 1=1,DV) =m >) m= 


1s TRR LA 9 AA PE E: D h = 
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= ae ^ à 
a 


3.889569, 并 不 满足 约束 条 件 , 必须 对 特征 向 量 进 行规 格 化 , 如 的 规划 化 为 : 
Ll, / V3.889569 = (0.032198, 一 0.50593 ,0. 008417)’ , fic MB LIGA 的 特征 向 量 为 7;, 则 
li = (— 0. 032198,0. 50593, — 0. 008417)’ 

l, = (— 0. 07829,0. 378175, — 0. 03287)’ 
lą = (— 0. 00794,0. 162137,0. 149514)’ 

此 时 ,规格 化 后 的 特征 向 量 必然 满足 DCU) = UD) = 1,D0V) = m >) m= 1. 
同样 的 ,我 们 可 得 对 (= 1.2.30 对 应 于 B 的 规格 化 的 特征 向 量 为 : 
mi = (0.066,0.017, —0.014)’, 
m; = (—0.071,0. 002,0. 021)’ 
m, = (— 0. 245,0. 020, — 0. 008)’ 
到 目前 为 止 ,我 们 得 到 三 对 典型 相关 变量 :U; = LX 与 Vi; = miY,i = 1,2,3, 我 们 不 必 
全 部 接受 者 三 对 典型 的 相关 变量 ,下边 我 们 进行 检验 。 


3 

ic 
= (1—0.632994993)€(1 — 0. 040214862) (1 — 0. 005267145) 
— 0. 350390621 


Q = mls =— [£n— 1) -+q +D] 


=—[(20—1) 503 -3-L- 1X TInds 


=— 15. 5lnA, = 16. 255 
Qo 一 Xio(9) 王 16.91896016 , 故 在 w 王 0.05 下 ,生理 指标 与 训练 指标 之 间 不 存在 相关 性 ;而 
TE a = 0.10 F.Q > yi: (9) 二 14.68366, 生 理 指标 与 训练 指标 之 间 存 在 相关 性 , 且 第 一 对 
典型 变量 相关 性 显著 。 


3 
A. 一 | | (1 — à?) = (1 — 0. 040214862) (1 — 0. 005267145) = 0. 954729811 
i=2 


a = slay eae a Fo 十 1)]lnA， 


-——[t36— 1 元 (3 十 3 十 1)]ln4。 


一 一 15.5lnA, = 0.718 
Qi < xii (4) = 7.779434, ATE a = 0.10 下 ,第 二 对 典型 变量 间 相 关 性 不 显著 。 
说 明生 理 指标 和 训练 指标 之 间 只 有 一 对 典型 变量 , 即 : 
U, =— 0. 0322X, +0. 5059X, — 0. 0084X; 
V, = 0.066Y, +0.017Y, — 0. 014Y, 
nv, = [2 1m ——0. 796 =— Ai ,为 了 叙述 的 方便 ,一 般 的 软件 都 是 给 出 两 组 变量 正 的 相 
关系 数 , 这 里 可 做 相应 的 调整 ,可 对 Li 或 m 其 中 一 个 向 量 乘 以 一 1, 如 可 令 : 和 三 一 4 = 
(0. 032198, — 0. 50593,0. 008417) ,那么 相关 系数 是 正 数 的 规格 化 的 第 一 对 典型 变量 为 : 
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第 八 章 
典型 相关 分 析 
U, = 0.0322X — 0. 5059 X; + 0. 0084X; 
V; = 0. 066Y, + 0. 017Y, — 0. 014Y; 


本 章 思 考 与 练习 


l. 简 述 典型 相关 分 析 的 基本 思想 。 

2. 请 查找 我 国 2010 年 各 省 (市 .自治 区 ) 如 下 两 组 变量 的 数据 ,对 两 组 数据 进行 典型 相 
关 分 析 ,并 对 分 析 结 果 进 行 评述 。 

第 一 组 变量 :常住 人 口 .人均 GDP ,固定 资产 投资 .引进 外 国 直接 投资 .R&D 经 费 投 入 、 
教育 经 费 支 出 ; 

第 二 组 变量 :GDP 增 长 率 、 非 农 产 业 增 加 值 占 GDP 比重 、 人 均 最 终 消费 支出 、 出 口 总 额 。 
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BILE ”对 应 分 析 


对 应 分 析 (correspondence analysis) 又 称 为 相应 分 析 ,也 称 R-Q 型 因子 分 析 ,是 在 因子 
分 析 的 基础 上 发 展 起 来 的 一 种 多 元 统计 分 析 方 法 . 它 可 以 应 用 于 定量 数据 的 分 析 ,也 可 以 应 
用 于 定性 数据 的 分 析 ,通过 分 析 定 性 变量 构成 的 列 联 表 来 揭示 变量 之 间 的 关系 。 在 因子 分 析 
中 人 们 通常 只 是 分 析 原 始 变量 的 因子 结构 , 找 出 决定 原始 变量 的 公共 因子 ,从 而 使 问题 的 分 
析 简 化 和 清晰 .这 种 研究 对 象 是 变量 的 因子 分 析 称 为 R 型 因子 分 析 . 但 是 对 于 有 些 问 题 来 
说 ,我 们 还 需要 研究 样品 的 结构 , 若 对 于 样品 进行 因子 分 析 , 称 为 Q 型 因子 分 析 。 当 我 们 对 
同一 观测 数据 同时 施加 R 和 Q 型 因子 分 析 , 并 分 别 保留 两 个 公共 因子 , 则 是 对 应 分 析 的 
初步 。 


9.1 对 应 分 析 及 基本 思想 


9.1.1 对 应 分 析 的 数据 类 型 

对 应 分 析 是 一 种 描述 性 .探索 性 的 数据 分 析 方 法 ,可 以 对 定性 与 定量 的 数据 类 型 进行 
分 析 : 

(1) 定量 数据 : 设 有 nn 个 样品 ,每 个 样品 有 p 项 指标 ,原始 资料 阵 为 : 


/ 
Tı Tı Xu Tip 


A Xa X» Tz t Lap 
X 2 = 
x, Tal XX oe Tnp 
(2) 定性 数据 :二 维 列 联 表 的 数据 结构 : 
n X p 列 联 表 


虽然 (1)(2) 的 数据 类 型 看 起 来 不 太 相 同 , 实 际 上 它们 做 对 应 分 析 的 出 发 样本 和 矩阵 是 
“相同 ”的 ,下边 我 们 通过 两 个 实例 来 讨论 这 个 问题 。 
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第 九 章 
对 应 分 析 


例 1 为 了 研究 眼睛 颜色 与 头发 颜色 之 间 关 系 , 表 1 包含 了 5387 名 苏格兰 北部 的 凯 斯 
纳 斯 郡 小 学 生 的 眼睛 颜色 与 头发 颜色 ,利用 数据 探讨 眼睛 颜色 与 头发 颜色 之 间 的 对 应 关系 。 
表 1 

头发 颜色 A 
n= "I3 棕色 | we | 黑色 nd 
深 色 403 681 | 85 1315 
棕色 909 412 | 26 1774 
蓝 色 241 | 3 718 
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例 2 
支出 结构 。 

选取 7 个 变量 :Xi, :食品 支出 XS :衣着 支出 X; :居住 支出 X :家 庭 设备 及 服务 支出 X: 
医疗 保健 支出 Xe :交通 和 通讯 支出 X， :文教 娱乐 .用品 及 服务 支出 。 

样品 为 10 个 , 即 山 西 .内 蒙古 .辽宁 吉林、 黑龙 江 海南. 四川、 贵州 .甘肃 .青海 .原始 数 


用 对 应 分 析 研 究 我 国 2011 年 部 分 省 份 的 城镇 居民 家 庭 平均 每 人 全 年 现金 消费 


据 如 下 : 

表 2 (单位 :元 ) 

X, X; X X, X; X; X; 
山西 3558. 04 1461. 90 1327. 78 832. 74 1487. 66 | 1419. 43 851. 30 
内 蒙古 4962. 40 2514. 09 1418. 60 1162. 87 2003. 54 1812. 07 1239. 36 
辽宁 5254. 96 1854. 63 1385. 62 929. 37 1899. 06 1614. 52 1208. 30 
veh 4252. 85 1769. 47 1468. 29 839. 31 1541. 37 1468. 34 1108. 51 
黑龙 江 4348. 45 1681. 88 1185. 96 723. 58 1363. 62 1190. 87 1082. 96 
海南 5673. 65 780. 10 1342. 29 729. 86 1830. 80 1141. 81 783. 34 
四 川 5571. 69 1483. 54 1226. 14 1020. 16 1757. 52 1369. 47 735. 26 
4565. 85 1209. 88 1102. 99 857. 55 1395. 28 1331. 43 578. 33 
4182. 47 1470. 26 1139. 85 660. 48 1289. 80 1158. 30 874. 05 
4260. 27 5 723. 854. 25 


资料 来 源 :( 中 国 统计 年 鉴 }2012 


i) 1 是 一 个 二 维 的 4X5 列 联 表 ,位 于 列 的 属性 变量 眼睛 的 颜色 有 4 个 水 平 : 深 色 、 棕 色 、 
KE , 浅 色 ;位 于 行 的 属性 变量 头发 的 颜色 有 5 个 水 平 :金色 .红色 .棕色 RE .黑色 。 
在 实际 问题 中 ,为 了 克服 数量 级 对 我 们 分 析 问 题 的 影响 ,通常 把 频数 的 矩阵 变换 成 概率 
HRE P = (py) = (ny /n..) , WU GA) 1 对 应 的 概率 矩阵 为 : 


头发 颜色 


We TE 棕色 W& | 黑色 TUNE 
0. 018192 0. 00891 0. 07481 0. 126415 | 0.015779 [ 0. 2441 

0. 063672 0.015593 0. 16874 0. 07648 0. 004826 0. 3293 

KE 0. 060516 0. 007054 0. 044737 0. 02042 0. 000557 0. 1333 
RE 0. 127715 0. 021533 0. 108409 0. 034899 0. 000743 0. 2933 


0. 270095 


0. 053091 


0. 396696 


0. 021905 
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例 2 中 ,我 们 有 10 个 样品 .7 个 指标 变量 ,在 分 析 问 题 时 ,同样 的 ,如 果 指 标 ( 变 量 ) 的 量 
纲 不 同 以 及 数量 级 相差 很 大 时 ,我 们 要 进行 去 量 纲 的 处 理 , 可 以 令 每 个 数据 除 于 总 数 :P = 
(py) = Greg / x.. ) s WU BAL 2 对 应 的 权重 矩阵 (为 叙述 方便 起 见 ,我 们 也 称 它 为 概率 和 矩阵) : 


X; X; X; X, X; X; X; 
山西 | 0.029156 | 0.011979 0.010880 | 0. 006824 0.012190 | 0.011631 0. 006976 
内 蒙古 0. 040664 0.020601 0.011625 0. 009529 0.016418 | 0.014849 0. 010156 
XL 0. 043061 0.015198 | 0.011354 0. 007616 0. 015562 0. 013230 0. 009901 
吉林 0. 034850 0. 014500 0. 012032 0. 006878 0. 012631 0. 012032 0. 009084 
黑龙 江 0.035633 0.013782 0.009718 | 0.005929 0.011174 0. 009758 0. 008874 
海南 0.046492 0.006392 | 0.010999 0. 005981 0. 015002 0. 009356 0. 006419 
四 川 0.045657 0.012157 | 0.010047 | 0.008360 | 0.014402 0. 011222 0. 006025 
贵州 0. 037414 0. 009914 0.009038 | 0.007027 0. 011433 0.010910 | 0.004739 
HW 0.034273 | 0.012048 | 0.009340 0.005412 | 0.010569 | 0.009492 | 0.007162 
青海 0.034910 0.011425 0. 008646 0. 005926 0.010599 | 0.007931 0. 007000 


例 1, 例 2 都 是 分 析 两 个 变量 的 对 应 关系 :眼睛 颜色 与 头发 的 颜色 ,省份 与 消费 支出 ;并 
且 两 者 的 概率 矩阵 从 形式 看 是 相同 的 ,因此 ,我 们 分 析 这 两 种 类 型 的 数据 时 ,把 原始 数据 转 
换 成 概率 矩阵 ,然后 只 需 从 概率 矩阵 从 发 探讨 尺 型 因子 分 析 ( 列 数据 ) 及 Q 型 因子 分 析 ( 行 
数据 ) 。 

则 我 们 把 样本 矩阵 统一 为 己 二 (2 ): 


Pu bi 
Pa p2 
Pu Pr 
bi 1 
p p n n 
3x FL (1) Ht Fi HR : py = a = Ss) bi = > -3 spy = X By = zu 
s. EET, fai Ns. TE im of 
a P P A ? i T 
(2) 对 定量 指标 变量 :py =p. = 9p; = >) ** 6p = Dips = DY 2 


n p 
显然 有 > p. = Site ela 
i=l j= 


9.1.2 对 应 分 析 的 基本 思 ? 

由 于 R 型 因子 分 析 和 Q 型 因子 分 析 都 是 反映 一 个 整体 的 不 同 侧 面 ,因此 它们 之 间 一 定 
存在 内 在 的 联系 。 对 应 分 析 就 是 通过 一 个 过 渡 和 矩阵 Z 将 二 者 有 机 地 结合 起 来 ,具体 地 说 , 首 
先 给 出 变量 ( 列 ) 的 协 差 阵 A = Z'Z 和 样品 ( 行 ) 的 协 差 阵 已 = ZZ', 由 于 ZZ 和 ZZ' 有 相同 
的 非 零 特征 根 记 为 

Ay > à: St SA Om < min(p,n) 

4n SR A ARETE AR A, 对 应 的 特征 向 量 为 U;, 则 B 的 特征 根 4; 对 应 的 特征 向 量 就 是 ZU;,AV 
i, 根 据 这 个 结论 就 可 以 很 方便 的 借助 R 型 因子 分 析 而 得 到 Q 型 因子 分 析 的 结果 。 因 为 求 出 
A 的 特征 根 和 特征 向 量 后 很 容易 地 写 出 变量 点 协 差 阵 对 应 的 因子 载荷 阵 , 记 为 下 , 则 
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ui Jar ui Jas Ut Uim VA. 
F= Uu» fa. U22 SS ttt Um "m 
un VÀ Mg Àr UT Um MAm 
这 样 一 来 样品 点 协 差 阵 B 对 应 的 因子 载荷 阵 记 为 G, 则 
Ui VÀi Ui? "n" UT Ulim af in: 
G= U21 nf Aa U22 Ae Ut Um VAm 
Uni T Un2 af he Ut Unm VA m 
由 于 A 和 已 具 有 相同 的 非 零 特征 根 , 而 这 些 特征 根 又 正 是 各 个 公共 因子 的 方差 ,因此 可 
以 用 相同 的 因子 轴 同 时 表示 变量 点 和 样品 点 , 即 把 变量 点 和 样品 点 同时 反映 在 具有 相同 坐 
标 轴 的 因子 平面 上 ,以 便 对 变量 点 和 样品 点 一 起 考虑 进行 分 类 。 
鉴于 对 应 分 析 在 列 联 表 中 的 广泛 应 用 性 ,本 章 主要 从 列 联 表 出 发 探讨 相关 的 问题 。 


9.2” 列 联 表 及 列 联 表 分 析 简 介 


列 联 表 是 由 两 个 以 上 的 属性 变量 进行 交叉 分 类 的 频数 分 表 。 一 般 , 若 总 体 中 的 个 体 可 按 
两 个 属性 A 5 B 4:25, ACH p AKFA AA, BA n 个 水 平 B1,B;,…,B,, 从 总 体 中 
Jill BUK A n... 的 样本 , 设 其 中 有 个 个 体 的 属性 属于 水 平 A; FB; ng 称 为 频数 ,将 nXp 
个 ng 排列 为 一 个 nn 行 p 列 的 二 维 列 联 表 , 简 称 n Xp 表 。 


nX p WHR 


这 里 , 行 频数 总 和 ni. = Duns , 列 频数 n.; 一 2j ,频数 总 和 N.e. =S 2 . FH ps 表示 第 地 个 


格子 频数 占 总 频数 的 理论 比例 (概率 ) ,显然 ,一 ECR 


XE Enj) 为 对 n; 的 数学 期 望 ， 
而 相应 的 第 i 行 的 理论 比例 (概率 )p;. 及 第 j 列 的 理论 比例 p.; 分 别 为 :p;. = Sia Al p.; = 


S des 
若 所 考虑 的 属性 多 于 两 个 ,也 可 按 类 似 的 方式 作出 列 联 表 , 称 为 多 维 列 联 表 。 本 节 只 考 
察 二 维 列 联 表 的 相关 问题 。 
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上 oindiladdi 


列 联 表 分 析 的 基本 问题 是 ,判明 所 考察 的 各 属性 之 间 有 无 关联 , 即 是 否 独立 。 
例 3 某 项 研究 欲 研 讨 患 肺癌 与 吸烟 是 否 有 关 , 调 查 了 106 个 志愿 者 ,数据 如 下 : 
问题 表述 为 : 


不 吸烟 (人 ) 合计 (人 ) 


患 肺癌 
未 患 肺癌 
合计 


3 
11 
14 


HH,: 患 肺癌 与 否 和 吸烟 与 否 相 互 独立 ”Hi: 患 肺癌 与 否 和 吸烟 与 否 不 相互 独立 
也 就 是 说 要 检验 行 和 列 的 独立 性 , 当 行 列 变量 独立 时 ,一 个 观察 值 分 配 到 第 立 个 格子 
的 理论 概率 p; 应 该 等 于 行列 两 个 概率 之 积 p; = pi p; MAIR: 
Ao: py = pi. Pj 
这 时 ,在 零 假设 下 , 它 的 估计 值 5，= p. p. = D P2 AA aT i A I ALLEL ; 
E, 2 pj Xn.. = ——À 


如 果 期 望 频数 和 观测 频数 相差 不 大 , 则 零 假设 可 能 是 正确 的 ;如 果 二 者 差别 很 大 , 则 零 
假设 可 能 不 成 立 。 


2 


RN oN -E, y , 2 [RR 
检验 统计 量 Y = » Me ie a 


n;.n.; 
n. 


在 零 假 设 成 立时 ,i 该 统计 量 近似 服从 自由 度 为 Co_1)(p - D E y 分 布 。 当 该 统计 量 的 
值 很 大 (或 p 值 很 小 ) 时 ,就 可 以 拒绝 零 假 设 , 认 为 这 两 个 变量 不 相互 独立 。 例 3X = 9. 6636, 
自由 度 为 1, 计 算 p 二 0.00188, 在 显著 性 水 平 a = 0.05 下 拒绝 原 假设 , 即 说 明 吸 烟 与 肺癌 不 
独立 ,存在 一 定 的 相关 性 。 


9.3 ”对 应 分 析 的 基本 理论 


在 上 一 节 中 ,我 们 通过 列 联 表 的 卡 方 检验 探究 列 联 表 中 变量 间 的 联系 ,问题 在 于 : 当 属 
性 变量 A 和 B 的 水 平 较 多 时 ,很 难 透 过 列 联 表 直观 地 揭示 出 变量 之 间 的 联系 以 及 变量 各 水 
平 之 间 的 联系 ,主要 表现 在 : 

首先 ,由 于 变量 的 水 平 数 较 多 使 得 交叉 列 联 表 行 列 数 剧 增 , 列 联 表 庞 大 ,不 易于 对 列 联 
表 的 直观 观察 更 主要 的 是 ,由 于 列 联 表 的 单元 格 数 较 多 , 极 不 易于 揭示 列 联 表 中 行列 变量 
之 间 的 联系 。 

其 次 ,在 变量 水 平 数 较 多 但 样本 量 却 不 足够 大 时 ,生产 的 交叉 列 联 表 中 会 出 现 数据 “ 稀 
朴 ” 现 象 ,不 易于 卡 方 检验 等 分 析 方 法 的 运用 。 

怎样 简化 列 联 表 的 结构 ?可 以 利用 降 维 的 思想 ,如 因子 分 析 和 主 成 分 分 析 。 但 因子 分 析 
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的 缺陷 是 在 于 无 法 同时 进行 R 型 因子 分 析 和 Q 型 因子 分 析 。 下 面 我 们 从 二 维 列 联 表 从 发 控 
讨 两 个 属性 变量 的 对 应 分 析 。 

9.3.1 ”距离 与 总 惯量 

为 了 对 列 联 表 进 行 对 应 分 析 , 首先 ,我 们 把 频数 的 矩阵 变换 成 概率 矩阵 P = (py) = 
(ny /n..), 则 对 应 矩阵 为 : 


概率 矩阵 P 


如 果 我 们 将 行 数据 看 成 p 维 空间 的 点 , 则 其 个 点 的 坐标 用 p= ja PR ase, Div 小 


Pob b. 
i=l. 表示 。 同 样 的 , 如 果 我 们 将 列 数据 看 成 是 n 维 空间 的 点 , 则 其 p 个 点 的 坐标 用 
p; ks P om Js =1,°",p 表示 
为 了 简化 列 联 表 ,我 们 引入 距离 的 概念 来 分 别 描述 A 的 各 个 状态 (2 个 样品 ) 之 间 的 接 
近 程 度 。 
变量 A 的 第 & 个 状态 与 第 /个 状态 的 普通 欧 氏 距离 : 
2 = Ute gr WU. buo Py \’ 
Pk, D = (pi — pry’ (pi — D eile. E 
如 此 定义 的 距离 有 一 个 缺点 ,就 是 受到 变量 B 的 各 个 状态 的 边缘 概率 的 影响 ,如 B 的 第 j 个 


状态 出 现 的 概率 特别 大 时 ,在 上 述 公 式 中 ， 妈 部 分 的 作用 就 被 抬 高 了 ,因此 我 们 用 


系数 二 去 乘 距离 公式 ,就 得 到 一 个 加 权 的 距离 公式 


2 _ /py PRYG. ~ ( Pij bi y 
diii 2» Pi. ) IPs 2, Pr. V D.j pi VP; 


j=1 j=1 


也 可 以 说 上 式 是 坐标 为 


| EN. Pip | E ee 
v b.i Pi vba. VBP.pPi 

的 A 变量 的 第 个 状态 (样品 ) 与 第 /个 状态 (样品 ) 的 距离 , 故 R W A TE 4 RE 
阵 变 为 : 
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Pu Piz Pip 
Vp. Pi. vp. VP -pPi- 
Pn D» _ po 
万 = EVA P.a Ps. VM P. Pa. V P+» Das. 
pn Dua dex Pnp 
V Pa V P.2 Pn v Pp Pn 
因为 第 7 non eR 
bj = pu = Jp; 
2 7A ^A 
故 各 列 的 加 权 平 均值 : py* = me Vi … y pua) ,我 们 定义 其 为 个 点 的 


中 心 。 
定义 行 的 总 惯量 :n 个 点 与 其 重心 的 欧 氏 距离 之 和 , 记 为 1 = dd : 


= Mrs a = MXe(- TC 


=] j 


= 4 

从 上 式 可 以 看 出 ,总 惯量 不 仅仅 反映 行 数据 的 各 点 与 其 重心 的 加 权 距 离 的 总 和 ,同时 与 
x 统计 量 仅 相 差 一 个 常数 ,由 列 联 表 的 知识 我 们 知道 ,x* 统计 量 反映 了 列 联 表 的 横 栏 与 纵 
栏 的 相关 关系 ,因此 ,此 处 总 惯量 也 反映 了 两 个 属性 变量 各 状态 之 间 的 相关 关系 ,对 应 分 析 
就 是 在 对 总 惯量 信息 损失 最 小 的 前 提 下 ,简化 数据 结构 以 反映 两 属性 变量 之 间 的 相关 关系 ， 
在 Spss 软件 进行 对 应 分 析 中 ,系统 会 给 出 对 总 惯量 信息 的 提取 情况 。 
类 似 地 ,B 属性 的 两 个 状态 i 与; 之 间 的 加 权 距 离 为 : 


omen d pm Dij á 
D iij) = ( ) 
2j V Pe. P.i v Ps. Puj 


也 可 以 说 上 式 是 坐标 为 
| Pe 0 Pa ou D» | EE 
Vbi. Pr I Po. Pr VP nm» Pr- 
的 B 属 性 的 第 i 个 状态 与 第 j; 个 状态 的 距离 , 故 Q 型 因子 分 析 的 概率 矩阵 变 为 : 
Pu Piz pes Pip 
Sti. bai bi ba pi. b.» 
Da P22 P2p 
P: = V/ be. Pa SPa. Baz SPa. Pip 
Pm Pre Du 
J Pe ba baba vba $a 
t= (Es Be m 


列 数据 的 总 惯量 :1 = D, = Ly " 
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9.3.2 R 型 与 Q 型 因子 分 析 的 对 等 关系 

经 过 以 上 的 数据 变换 ,在 引入 加 权 距 离 函 数 之 后 ,就 可 以 直接 计算 属性 变量 各 状态 之 间 
的 距离 ,通过 距离 的 大 小 来 反映 不 同 状态 之 间 的 接近 程度 ,同类 型 的 状态 之 间距 离 应 当 较 
短 , 而 不 同类 型 的 状态 之 间 的 距离 应 当 较 长 , 据 此 可 以 对 各 种 状态 进行 分 类 以 简化 数据 结 
构 .但 是 ,这 样 做 不 能 对 两 个 属性 变量 同时 进行 分 析 , 因 此 不 计算 距离 , 代 之 求 协 方差 矩阵 ， 
进行 因子 分 析 ,提取 主因 子 , 用 主因 子 所 定义 的 坐标 轴 作 为 参照 系 , 对 两 个 变量 的 各 个 状态 
进行 分 析 。 

先进 行 民 型 因子 分 析 , 将 P" 矩阵 的 p 列 看 作 p 个 变量 ,计算 户 个 变量 的 协 方差 矩阵 A ， 
由 前 面 可 知 各 列 的 加 权 平 均值 :p) ”二 (pas pas cr Vp) , 则 我 们 可 得 : 

A = (a;) 


a a = (FE VPs) (Fae Yes 


= Sh a s ui. — ba VBa 
= (x VP a Caton Jp ) 
— : = — papa (l — pila ) 
a=] v P-iba- V P.jPa- 
其 中 z, = Poi — Puipa a= l n i=1,-,p 
v P.iPa 
令 Z = (Gy), WE 
A=ZZ 
类 似 上 面 的 方法 ,进行 Q@ 型 因子 分 析 , 将 P' ERER n TATE n SAE TA on TAB h 
方差 矩阵 B, 由 前 面 可 知 各 行 的 加 权 平 均值 :pi = (pus Vpz，…， Ip.) , 则 可 求 
B= (bg) 
其 中 
bk. = ; Px. Pu — Vv PL. " 
Qus Ul ae je 
- Mm J Px e Vea | (ee Vb. Vp | 
2 ki — P-iPk- Papu 
m VEP n Vw» ie Men 
其 中 
— bk. — PPr. ie = pi — Pit. 
v PuiPk- v Pip 
从 而 


B = ZZ’ 
综 上 所 述 , 若 R 型 与 Q 型 因子 分 析 的 协 差 阵 分 别 为 :A = ZZ 和 B = ZZ'.A 5 B WEEN 
显存 在 着 简单 的 对 应 关系 。 
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ü 2 = d d | ii 5 i xs 
a 


为 了 进一步 研究 R 型 与 Q 型 因子 分 析 的 对 应 关系 ,我 们 可 以 借助 下 面 线性 代数 中 的 
定理 。 

定理 9.1 ASB 的 非 零 特 征 根 相同 , 记 为 A SA Se SA, 

推论 9.1 WRU EZZ 的 特征 向 量 , 则 ZU 是 ZZ 的 特征 向 量 , 如 果 V 是 ZZ' 的 特征 
向 量 , 则 ZV 是 Z'2 的 特征 向 量 。 

这 是 显然 的 ,比如 U 是 ZZ 的 特征 向 量 , 则 有 

ZZU = AU 两边 左 乘 Z 得 :ZZ (ZU) 一 A(ZU) 

Bl ZU 是 Z'Z 的 特征 向 量 。 

这 个 定理 为 我 们 建立 了 因子 分 析 中 尺 型 与 Q 型 的 关系 。 因 此 借助 这 个 定理 ,我 们 可 以 从 
R 型 因子 分 析出 发 而 直接 获得 Q 型 因子 分 析 的 结果 。 又 由 于 A 与 B 有 相同 的 非 零 特征 根 ,而 


这 些 特 征 根 正 是 各 个 公 因 子 所 解释 的 方差 ,或 提取 的 总 惯量 的 份额 LP =I, = 1; Hf 


LEZE BN p HER? 中 的 第 一 主因 子 、 第 二 主因 子 、…、 直 到 第 ;个 主因 子 与 变量 A 的 
n 维 空间 R" 中 相对 应 的 各 个 主因 子 在 总 方差 中 所 占 的 百分比 就 完全 相同 ,这样 就 可 以 用 相 
同 的 因子 轴 去 同时 表示 两 个 属性 变量 的 各 个 水 平 ,把 两 个 变量 的 各 个 水 平 同时 反映 在 具有 
相同 坐标 轴 的 因子 平面 上 ,以 直观 的 反映 两 个 属性 变量 及 各 个 水 平 之 间 的 相关 关系 ,一般 的 
情况 下 ,我们 取 两 个 公 因子 ,这 样 就 可 以 在 一 张 二 维 的 图 上 同时 画 出 两 个 变量 的 各 个 状态 。 


9.4 对 应 分 析 的 步骤 


第 一 步 ”由 原始 资料 阵 X 或 列 联 表 出 发 ,计算 规格 化 的 概率 矩阵 己 王 ( 户 ) 
第 二 步 计算 过 渡 和 矩阵 Z= = (zj ) ,其 中 
z; = Pi — Pi Pj 
"o PaPa 
第 三 步 ”进行 因子 分 析 
(DR 型 因子 分 析 
计算 协 差 阵 A = Z'Z HSE GE MBA, > Ao mon 宇 X,, 按 其 累计 百分比 >t Dade 859, 
取 前 m 个 特征 根 41 ,X42，,… Am ,并 计算 相应 的 单位 特征 向 量 记 为 : avia T ET 
子 载荷 阵 : 
un VA uisa Ut Uim alam 
(cR Un VAI Uz? MV A2 Ut Um VÀ 
Uy Sa U p2 fhe Ut Up ull 
(20 Q 型 因子 分 析 
th 2M B= ZZ' ,有 定理 9.1 可 知 ,B 的 特征 根 跟 A 相同 ,因此 ,这 里 也 取 m 个 特征 根 41， 


À2 s**t Am ,由 推 9. 1 可 知 ， 其 对 应 于 和 矩阵 也 一 ZZ 的 单位 特征 向 量 w; = =e Zu; s U2 = Zuz s**t s Um 
= Zu, 从 而 得 到 Q 型 的 因子 载荷 阵 为 : 


86 


第 九 章 Am 
对 应 分 析 


Uni VA Uiz MA? s Or af Age 


A= Un VÀ U22 y Az2 tt Urm VÀ m 


Upi MA Up VA nl U pm VAL 
(3) ER m = 2, 则 在 下 ,G 前 两 列 在 二 维 表 上 作出 对 应 图 。 


本 章 思考 与 练习 


l. 简 述 对 应 分 析 的 基本 思想 及 特点 。 
2. 试 述 对 应 分 析 中 总 惯量 的 意义 。 
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在 实际 中 往往 碰 到 这 样 的 问题 :有 ?个 由 多 项 指标 (变量 ) 反映 的 对 象 , 但 反映 对 象 的 指 
标 个 数 是 多 少 不 清 楚 ,甚至 指标 本 身 是 什么 也 是 模糊 的 ,更 谈 不 上 直接 测量 或 观察 它 ,仅仅 
所 能 知道 的 是 这 ?个 对 象 之 间 的 某 种 距离 (不 一 定 是 通常 的 欧 氏 距离 ) 或 者 某 种 相似 性 ,我 
们 希望 仅 由 这 种 距离 或 者 相似 性 出 发 ,在 较 低 维 的 欧 氏 空间 把 个 对 象 ( 作 为 几何 点 ) 的 图 
形 描 绘 出 来 ,从 而 尽 可 能 揭示 这 个 对 象 之 间 的 真实 结构 关系 。 这 就 是 多 维 标 度 法 所 要 研究 
的 问题 

一 个 经 由 的 例子 是 利用 城市 之 间 的 距离 来 会 制 地 图 。 

例 1 表 1 是 某国 十 城市 之 间 的 飞行 距离 ,我 们 如 何在 平面 坐标 上 据 此 标 出 这 10 城市 
之 间 的 相对 位 置 ,使 之 尽 可 能 接近 表 中 的 距离 数据 呢 ? 


表 1 10 城 市 间 的 飞行 距离 


城市 1 2 3 4 5 6 T 8 9 10 
1 0 245 223 251 200 314 217 473 170 215 
2 247 0 355 81 169 448 226 584 245 53 
3 222 353 0 371 348 | 97 154 254 117 301 
4 292 78 373 0 244 465 241 598 260 T5 
5 197 164 351 245 0 445 284 603 273 171 
6 312 446 99 467 445 0 247 169 213 394 
7 219 226 155 237 281 248 0 385 56 169 
8 474 587 254 600 598 173 384 0 352 535 
9 170 242 118 257 273 215 55 350 0 190 
10 214 56 298 75 172 395 173 036 190 0 


上 述 的 问题 可 以 表述 为 :已 知 10 个 城市 两 两 之 间 的 距离 矩阵 D = (dy oxo ,我 们 的 目的 是 
R R? 中 的 10 个 点 X ,X;,… ,Xio ,使 得 : 

| d; = (Xi—X) (Xi— KD if = 1,2,.…,10 
尽 可 能 的 接近 di 。 其 中 ,X, = (Xn Xe)! 就 是 我 们 要 求 的 第 i 个 城市 的 相对 坐标 点 。 

多 维 标 度 法 (Multi-Dimensional Scaling) 就 是 解决 类 似 问题 的 一 种 方法 , 它 是 一 种 在 低 
维 空间 展示 “距离 ”数据 结构 的 多 元 数据 分 析 技 术 , 简 称 MDS, 

多 维 标 度 法 内 容 丰 富 、 方 法 较 多 , 按 相似 性 (距离 ) 矩阵 的 个 数 和 MDS 模型 的 性 质 
MDS 可 分 为 :古典 多 维 标 度 CMDS( 一 个 矩阵 , 无 权重 模型 )、 重 复 多 维 标 度 Replicated 
MDS( 几 个 矩阵 ,无 权重 模型 ) .权重 多 维 标 度 WMDS( 几 个 矩阵 ,权重 模型 ) .本 章 仅 介绍 常 
用 的 古典 多 维 标 度 法 。 
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第 十 章 
多 维 标 度 分 析 


10.1 距离 阵 和 经 典 解 


10.1.1 欧式 距离 阵 

在 解决 问题 之 前 ,我 们 首先 明确 与 多 维 标 度 法 相关 的 数据 概念 。 

我 们 这 里 研究 的 距离 不 限于 通常 的 欧 氏 距离 ,首先 ,对 距离 的 意义 加 以 拓 广 ,给 出 如 下 
的 距离 阵 的 定义 。 

定义 10.1 一 个 nXn 阶 的 矩阵 D = (dv ),, ,如 果 满 足 条 件 : 

(1)D= p' 

(2)d; Z0, di =0, i, j = 1.2.:-.n 

WERE D 为 广义 距离 阵 ,d; 称 为 第 i 点 与 第 j 点 间 的 距离 。 
从 例 1 的 讨论 可 知 ,多 维 标 度 分 析 要 解决 的 问题 是 从 个 对 象 已 知 的 距离 矩阵 D = (d; 出 
发 , 求 正 整 数 r 和 R” 中 的 nn DAX Xo X, ,使 得 

d} = (X,—X;)'(X; — X,) isj = 1,2,*,n 

在 某 种 意义 下 尽 可 能 的 接近 d; Ad, = d; ,我 们 称 具 有 这 种 性 质 的 距离 矩阵 D = (dj) 为 
欧 氏 距离 阵 。 

定义 10.2 ”对 于 一 个 nXn 的 距离 阵 D = (Cd; ) wn ,如 果 存 在 某 个 正 整数 r+ 和 R" 中 的 7 
个 点 Xi Xon X, ,使 得 

di = (X; —X,)" (Xi— Xp) isj = 1,2, .7 

则 称 D 为 欧 氏 距离 阵 。 

4 X = (OG Xen X WK X AD 的 一 个 解 , 在 多 维 标 度 法 中 ,我 们 称 X 为 距离 阵 
D 的 一 个 拟 合 构 图 。 所 谓 的 拟 合 构 图 ,其 意义 是 有 了 这 7 个 点 的 坐标 ,可 以 在 R'(r 一 般 取 1， 
2,3) 画 出 图 来 ,使 得 它们 的 距离 阵 D 和 原始 的 对 象 距离 阵 喇 接近 ,给 出 原始 nn 个 对 象 关 系 一 
个 有 意义 的 解释 ,特别 地 ,如 果 DD = 了, 则 称 X 为 忆 的 一 个 构图 ,也 就 是 说 ,如 果 刀 是 欧 氏 距 
离 阵 ,那么 相应 的 X 是 DD 的 一 个 构图 。 

10.1.2 欧式 距离 阵 的 判定 定理 

上 一 节 ,我 们 给 出 欧 氏 距离 阵 的 定义 ,在 这 一 节 中 ,我 们 要 讨论 如 何 判 别 一 个 距离 阵 D 


是 欧 氏 距离 阵 。 

为 了 便于 理解 ,我 们 从 实际 的 例子 出 发 ,假设 个 城市 的 已 知 距离 阵 为 D = (d) RN 
目的 是 求 R 欧 氏 空间 的 个 点 ,第 i 个 城市 对 应 的 点 记 为 X;, 则 X; 的 坐标 记 作 X, = (Xa. 
Xi itt On o 
4 

B= (b,) 
其 中 : 
by -i( di 4 di zad 4) a) 


d; 为 i 城市 与 j 城市 之 间 的 距离 。 
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ü 2 元 统 i lg ib 5 35 26 


定理 10.1 — —^ n X n WERE D 是 欧 氏 距离 阵 的 充 要 条 件 是 B — 0, 
证 明 : 必 要 性 , 设 D= (d; ) 是 欧 氏 距离 阵 , 根 据 定义 (2) ,存在 Xi ,XX;,… X, € R' fef 
d} = (X, — X;)'(X; — X;) 
= XX, -X/X,—X;X,—XX, 


= XX, + XX, —2XX; (2) 
则 可 得 
L5 = xix, +2 xx, -ZD xx, (3) 
i=l i=] i 
同 理 可 得 
D = XX 十 二 XIX 一 二 XX, (4) 
j=l 3-51 j-l 
RES. Ly db ya =i sae 
ni "i-i n ii j=l 
1 n ， 1 n ; 2 n n j 
= —)) XX, +—))XjX,-+ XX, (5) 
n i=1 n j=l n i=l j=l 


把 (3)(4)(5) 代入 (1)， 


»-l(acl$Xa-lxa-lvy»a) 
j i= i=l j 


2 j=1 =1 n j=1 
= l(nx, -25y Rey L2 gx) 
2 n n i=] n iZ j=l 
= (XX; — X'iX —X'X, + X'X) 
—(X,— Xy (X,—X) 
其 中 :又 = LD) x, ,用 矩阵 表示 为 
i=1 
(X,— X)» 
= (by), = : (X, —X,-,X,—X) 20 
(X= Xy 


必要 性 得 证 。 
充分 性 ,着 B 宇 0, 那 么 是 欧 氏 型 的 ,并 且 按 以 下 方法 构造 的 XX 正好 为 D 的 一 个 构图 。 
WA Sa, So SA, AB AYE RPE AB AL Ad ee 对 应 的 单位 特征 向 量 
eos 
TD = (ay sus stu) 是 单位 特征 向 量 为 列 组 成 的 矩阵 , 则 令 
X = Qu Ati val e ta * ALES = Gig die (6) 
X ^B [e rp 8E— FO IZ 3 [8] P 9 — P ex «58 i FBX’. 
4 A = diag(i ss A) BEA X = DA"? ,可 得 
B= TAT” = XX" (7) 
BI b; = XX, B OD Xx b; -i( di4 La cla -l 
j=l i=l n j= 


(X: — X (X; X;) = XX, | XX, 2X. = b; + bj — 2b; 


>) 4 ) ,我 们 可 到 
di 
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多 维 标 度 分 析 

这 样 说 明 X 正好 为 DD 的 一 个 构图 ,D 是 欧 氏 型 的 。 

通过 上 面 的 讨论 我 们 知道 ,只 要 按 公 式 (1) 求 出 各 个 点 对 之 间 的 内 积 , 求 得 内 积 矩 阵 B 
的 -个 非 零 特 征 值 及 所 对 应 的 一 组 特征 向 量 , 据 公式 (6) 即 可 求 

出 X 和 矩阵 的 -个 列 向 量 或 空间 ?2 个 点 的 坐标 。 

10.1.3 多 维 标 度 的 经 典 解 

这 里 需要 特别 注意 ,并 非 所 有 的 距离 阵 都 存在 一 个 7 维 的 欧 氏 空间 和 个 点 ,使 得 nn 个 
点 之 间 的 距离 等 于 DD。 因 而 ,并 不 是 所 有 的 距离 阵 都 是 欧 氏 距离 阵 , 还 存在 非 欧 氏 距 离 阵 。 

当 距 离 阵 孔 为 欧 氏 时 ,可 求 得 一 个 DD 的 构图 XX, 当 距离 阵 不 是 欧 氏 时 ,只 能 求 得 D 的 拟 
合 构 图 .在 实际 应 用 中 ,即使 DD 为 欧 氏 ,一 般 也 只 求 r = 2 或 3 的 低 维 拟 合 构图 。 

值得 注意 的 是 ,由 于 多 维 标 度 法 求解 的 n 个 点 仅仅 要 求 它们 的 相对 欧 氏 距离 与 D 相近 ， 
也 就 是 说 ,只 与 相对 位 置 相近 而 与 绝对 位 置 无 关 , 根 据 欧 氏 距离 在 正 交 变换 和 平移 变换 下 的 
不 变性 ,显然 所 求 得 解 并 不 唯一 。 

根据 上 述 古 典 多 维 标 度 法 的 基本 思想 及 方法 ,可 给 出 求 古 典 解 的 一 般 步 又: 

CD 根据 距离 阵 数据 ,按照 公式 (1) 计算 出 555 

(2) 根据 b; 构造 出 矩阵 B = (0 ); 

(3) 计算 内 积 和 矩阵 B = (5; ) RE i > Ar Sv 宇和 和 7 个 最 大 特征 值 41 SA, > 
… 宇 1, 之 0 对 应 的 单位 特征 向 量 。 其 中 ,x 的 确定 有 两 种 方法 :一 是 事先 确定 r= 二 1,2 或 3; 二 
是 通过 计算 前 个 大 于 零 的 特征 值 占 全 体 特 征 值 的 比例 x 确定 。 


Ai te Pe A, 
[Ar |+ Jae [+ e+ JA, | 


(4) 根据 (6) SAX SS > 维 拟 合 构图 (简称 古典 解 ) .这 里 需要 注意 ,如 果 ) 中 有 负 
值 ,表明 D 是 非 欧 氏 型 的 。 


= Ko (8) 


K 


10.2 S 例 


$41 表 1 是 某国 十 城市 之 间 的 飞行 距离 ,我们 如 何在 平面 坐标 上 据 此 标 出 这 10 城市 
之 间 的 相对 位 置 , 使 之 尽 可 能 接近 表 中 的 距离 数据 呢 ? 


表 1 10 城市 间 的 飞行 距离 


城市 1 2 3 4 5 6 7 8 9 10 
1 0 245 223 251 200 314 217 473 170 215 
2 247 0 355 81 169 448 226 584 245 53 
3 222 353 0 371 348 97 154 254 117 301 
4 252 78 373 0 244 465 241 598 260 75 
5 197 164 351 245 0 445 284 603 273 171 
6 312 446 99 467 445 0 247 169 213 394 
7 219 226 155 237 281 248 0 385 56 169 
8 474 587 254 600 598 173 384 0 352 535 
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城市 1 2 3 4 5 6 7 8 9 10 
9 | xu | 84$ | we | 257 | 273 215 55 | 350 | o | 19 
10 214 56 298 75 172 395 173 536 190 0 


解 :首先 可 求 得 内 积 矩 阵 另 ,结果 见 表 2, 
表 2 10 城市 的 矩阵 B 


22123.72| 2940.82|—3647.23| 6417.07] 18654. 77| — 9206. 33 | — 9183. 08 
2645.82 | 43979.92 | — 30768. 6| 45663. 67 | 35400. 87 |— 49233. 7 | — 149. 98 
— 3654. 53| — 30487. 4| 20081.02 |— 32039. 2| — 23033. 5| 34250.92 | 1367.17 
6176.42 | 45716.02 | — 32542. 5 | 53722. 27 | 24691.47 | — 52216.1| 1125.62 
19604. 07| 36390. 17 |— 23498. 4 | 24789. 92 | 55539.62 | — 42036 |— 9081. 73 
— 8795. 48| — 48751. 9 | 34069. 57 | — 53374. 1| — 42604. 9| 57844.47 | 1609. 72 
— 9740. 58| — 468.48 | 1320.97 | 1949.27 | 一 8709.53| 1455.87 | 6477.62 
— 26135 | — 75251. 9 | 53038. 52 | 一 78003.2| — 76068 | 89206.42 | 4712.67 
— 2700. 18| — 6702.58] 3881.37 |— 5480.83 |— 8983.63| 6605.27 | 2475.02 
475.77 | 32635.37 |— 21934. 7 | 36355. 12 | 25112.82 | — 36670. 8| 646.97 


— 25750. 1 | — 2527. 83 178. 22 
— 73387 |— 7063. 73 | 32912. 82 
52720.12 | 3941.42 — 23146 
— 76882. 9 | — 6073. 13 | 36282. 92 
— 78805. 3 | — 8457. 48 | 25555. 07 
89586. 67 | 6990.47 |— 36574. 5 
4118. 07 2470. 37 1126. 42 

150193.6 | 14049. 42 |— 55742. 5 
14490. 47 | 1548.27 |— 5133.18 
— 56283. 6 | — 4877. 78 | 24540. 77 


B HJ $F 1E 1H NA, = 372040.4, = 47360.4, = 16050,A, = 5630.4, =— 4020, 
As —— 2610,A, = 1850,As = 290,4, 一 0 =— 540, 
因此 取 - = 2. FRA (8) 式 得 到 如 下 结果 


Ai FÀ? 


2 o Tai [F Jae [F e F Tho] 
u 372040 4- 47360 — MÀ 
372040 + 47360 + 16050 + 5630 + 4020 + 2610 + 1850 + 290 +0 + 540 
Vi u Vaz us uy Us 
52. 39478 112. 359 0. 0859 f 0. 5163 
201. 0398 — 46. 0927 0. 3296 — 0. 2118 
— 140. 655 29, 2486 — 0. 2306 0. 1344 
208. 8472 — 88. 1375 0. 3424 — 0. 405 
193. 7204 125. 7429 0. 3176 0. 5778 
— 237.515 27. 35528 — 0, 3894 0. 1257 
— 10. 6741 — 61. 3263 — 0.0175 — 0. 2818 
— 383. 781 — 36. 8872 — 0. 6292 — 0. 1695 
— 34. 7062 — 17. 5405 — 0. 0569 — 0. 0806 
151. 3898 — 44, 7216 0. 2482 — 0. 2055 
10 个 城市 的 坐标 分 别 为 ; 


(一 52. 39,112. 359) ,(201. 03, —46. 09) ,(— 140. 66,29. 24) , (208. 84, — 88. 14) , (193. 
72,125. 74) ,(— 237. 51,27. 36) , (— 10. 67, — 61. 33) , (— 383. 78, — 36. 89), (— 34, 70, 一 
17. 54) (151. 39, — 44. 72), 

计算 结果 表明 , 较 大 的 特征 值 有 两 个 ,说 明 在 二 维 平面 上 表示 10 城市 间 的 相对 位 置 是 
合适 的 。 由 于 有 特征 值 小 于 零 ,表明 距离 阵 不 是 欧 氏 型 ,其 结果 为 拟 合 构图 .在 此 ,城市 是 “对 
象 ”", 飞 行 里 程 是 “相似 性 .图 1 给 出 了 MDS 反 映 这 10 座 城市 相对 位 置 的 感知 图 .图 中 的 10 
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第 十 章 
多 维 标 度 分 析 


个 点 ,每 个 点 代表 一 个 城市 ,相近 的 点 代表 飞行 距离 短 的 城市 ,相距 较 远 的 点 代表 飞行 距离 
远 的 城市 .( 注 :由 于 解 的 多 样 性 ,这 里 给 出 的 图 是 Spss 画 出 的 图 ,但 是 相对 位 置 不 变 的 ) 


Euclidean distance model 


E 
o 


- Feo 起 市 2 
ino 


Dimension 2 
e 


-0.53 


-3 -2 一 1 0 1 2 
Dimension 1 


图 1 


本 章 思 考 与 练习 


1. 简 述 多 维 标 度 分 析 的 作业 。 
2. 试 述 多 维 标 度 分 析 的 思想 与 方法 。 
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第 二 篇 。 多 元 统计 分 析 实 验 


多 元 统计 分 析 是 统计 分 析 学 中 内 容 十 分 丰富 ,应 用 范围 极为 广泛 的 一 个 分 支 。 在 自然 科 
学 和 社会 科学 的 许多 学 科 中 ,研究 者 都 有 可 能 需要 分 析 处 理 有 多 个 变量 的 数据 的 问题 ,能 否 
从 表面 看 起 来 杂乱 无 章 的 数据 中 发 现 和 提炼 出 规律 性 的 结论 ,不 仅 对 所 研究 的 专业 领域 要 
有 很 好 的 训练 ,而 且 要 掌握 必要 的 统计 分 析 工 具 。 

统计 学 科 专 业 课程 实验 教学 通过 利用 数据 库 、 统 计 专 业 软 件 和 多 媒体 技术 ,使 教学 内 容 
更 深入 、 更 生动 .更 全 面 .统计 实验 教学 不 仅 改变 了 传统 的 教学 模式 ,而 且 教 学 观念 也 得 到 了 
更 新 和 提高 ,把 教师 和 学 生 从 繁重 枯燥 的 教学 任务 中 解脱 出 来 ,使 学 生 在 轻松 有 趣 的 氛围 中 
得 到 综合 能 力 的 提高 ,这 也 是 一 种 寅 教 于 乐 ,具体 地 说 ,统计 实验 教学 以 学 生 为 主体 ,教师 由 
主讲 者 的 角色 逐渐 转变 为 学 习 活 动 的 设计 者 和 指导 者 ,教学 媒体 不 仅 是 教师 的 讲授 工具 ,而 
且 也 是 学 生 的 认识 工具 ;学 生 也 从 知识 的 "被动 接受 者 ”转变 为 积极 参与 教学 、 参 与 操作 R 
现 知识 .理解 知识 .掌握 知识 的 “主动 寻求 者 "实践 证 明 , 实 验 教 学 有 利于 提高 学 生 对 统计 学 
科 专 业 课 程 的 学 习 兴 趣 和 教学 效果 。 

多 元 分 析 的 应 用 离 不 开 计 算 机 ,一 般 的 多 元 统计 分 析 教 材 都 没有 上 机 实现 的 操作 说 明 ， 
为 了 使 学 生 更 好 的 掌握 SPSS 软件 在 各 种 多 元 统计 方法 中 的 应 用 ,本 书 在 实验 部 分 配合 实 
例 概 要 介绍 了 SPSS 软件 的 实际 操作 过 程 ,这 对 于 指导 学 生 学 习 多 元 统计 分 析 大 有 神 益 。 

本 手册 共 编 入 与 教材 相 结 合 的 八 个 实验 项 目 , 每 一 项 目 中 包含 上 机 操作 说 明 , 上 机 操作 
图 示 及 相关 的 数据 分 析 。 


实验 一 
均值 向 量 和 协 方 差 阵 的 检验 


实验 一 ”均值 回 量 和 协 方差 阵 的 检验 


则 》。 


中 利 
的 问 


资产 


1.1 实验 背景 


1999 年 财政 部 、 国 家 经 贸 委 、 人 事 部 和 国家 计 委 联合 发 布 了 《国有 资本 金 效 绩 评价 规 
其 中 ,对 竞争 性 工商 企业 的 评价 指标 体系 包括 下 面 八 大 基本 指标 : 

(1) 净 资 产 收 益 率 

(2) 总 资产 报酬 率 

(3) 总 资产 周转 率 

(4) 流动 资产 周转 率 

(5) 资产 负债 率 

(6) 已 获 利息 倍数 

(7) 销售 增长 率 

(8) 资本 积累 率 

本 实验 选择 来 自 三 个 行业 的 35 家 代表 性 上 市 公司 年 报 中 的 这 八 项 财务 数据 ,在 SPSS 
用 均值 向 量 和 协 方 差 阵 的 检验 功能 对 三 个 行业 间 上 市 公司 的 运营 情况 进行 分 析 , 分析 
题 主 要 包括 : 

(1) 不 同行 业 的 上 市 公司 运营 能 力 有 无 显著 差异 ; 

(2) 若 有 差异 ,差异 来 自 哪 些 行业 , 作 不 同行 业 的 运营 能 力 的 比较 分 析 ; 

(3) 各 行业 (总 体 ) 协 方差 阵 相 等 的 检验 。 


1.2 实验 步 又 和 结果 分 析 


(一 ) 实验 数据 
例 1.1 借助 指标 体系 ( 净 资 产 收 益 率 ,总 资产 报酬 率 、 资 产 负 债 率 .总 资产 周转 率 、` 流 动 
周转 率 \ 已 获 利息 倍数 、 销 售 增长 率 及 资本 积累 率 ) 对 我 国 上 市 公司 的 运营 情况 进行 分 


析 。 表 1-1 所 列 的 是 35 家 上 市 公司 2000 年 年 报 数据 ,其 中 ,11 家 上 市 公司 来 自 于 电力 、 煤 气 


及 水 


的 生产 和 供应 业 ,15 家 来 自 房 地 行业 ,9 家 来 自信 息 技 术 业 。 
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a 总 i 产 负 债 
Gi PARTEA Bi CO puma DES 
深 能 源 A| 16.85 12. 35 42. 32 0. 37 
深 南 电 A 22 15. 3 46. 51 0. 76 
富 龙 热力 | 8.97 7.98 30. 56 0. 17 
穗 恒 运 A| 10.25 8.99 40. 44 0. 46 
电力 煤气 | 粤 电力 A| 20.81 20 35. 87 0. 43 
re ang [| 8. 86 7.52 27.59 0. 24 
业 ”| 惠 天 热电 | 10.98 7. 94 49.3 0. 36 
城 投 控股 | 8. 85 8. 88 36. 2 0. 13 
ESTIS 9. 03 7.41 46. 89 0. 28 
龙 电 股份 | 12.07 8.7 16. 81 0. 28 
华 银 电力 | 6.85 6. 12 41. 93 0. 24 
长 春 经 开 | 9. 8s | 10.5 31. 23 0. 34 
兴业 房产 | 1.07 1.52 66.91 0. 21 
金 丰 投 资 | 19.44 7.01 73.34 0. 26 
新 黄浦 7.61 5.92 39. 64 0. 16 
浦东 金桥 | 4.24 3. 99 37.3 0.2 
外 高 桥 1. 673 1.92 49. 05 0. 03 
中 华 企 业 | 8.78 6. 28 57. 42 0.17 
房地产 渝 开 发 A| 0.2 2. 24 63.4 0. 09 

行业 
辽 房 天 8.12 3. 98 69.1 0.1 
WHA! 0.42 1.16 37. 42 0. 09 
ST 中 福 | 5.17 | 6.62 | 65.48 | 0.16 
Ree eB) 0.72 2.76 65. 39 0.3 
三 木 集 团 | 5.99 ^| 4.58 65.17 0. 74 
赛 岛 实业 | 0.42 0.2 24.03 | 0.02 
中 关 村 | 9. 32 4. 48 67.76 | 0.32 
中 兴 通 讯 | 18.78 11. 09 69. 15 0. 93 
长 城 电脑 | 14. 94 9. 48 45. 53 1. 14 
青鸟 华 光 | 9.788 8.7 36. 67 0. 28 
. 清华 同方 | 15.91 9. 08 34. 19 0. 85 
os 永 易 光缆 | 9.4 8. 67 32. 75 0. 79 
宏图 高 科 | 14.57 ENGL. 65. 86 0. 76 
海星 科技 | 4.06 3. 35 36. 49 0. 48 
方正 科技 | 27.48 16. 69 57.13 2.51 
5. 58 0. 


注 :1. 该 表 中 , 除 大 连 热电 的 数据 为 母 公司 数据 外 ,其 他 数据 均 来 自 于 合并 会 计 报表 ， 
2. 除 辽 房 天 及 中 兴 通 讯 外 ,其 他 公司 的 净 资 产 收益 率 均 为 加 权 后 的 数值 
3. 除 净 资产 收益 率 指标 为 直接 取 自 会 计 年 报 外 ,其 他 各 指标 均 是 经 过 各 企业 年 报 提供 数字 计算 而 得 ,各 指标 的 
计算 公司 如 下 ， 
i BRENNE 利润 总 额 十 财务 费用 


x 100% 


(年 初 总 资产 十 年 末 总 资产 )/2 


b 资产 负债 率 — EARLE s 100% 


"ong 主 营 业务 收入 
c. 总 资产 周转 率 — Gea gee ERARA 
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流动 资产 周转 率 


主 营业 务 收 入 


— 利润 总 额 十 财务 费 
已 获 利息 倍数 财务 费用 


销售 增长 率 = 本 年 主 营 业务 收入 一 上 年 主 营 业务 收入 


ne en mw 年 末 股 东 权 益 一 年 初 股东 权益 
资本 积累 率 年 初 股 东 权 益 


(年 初 流动 资产 十 年 末 流 动 视 产 )/2 
用 


上 年 主 营 业务 收入 


(二 ) 实验 步骤 


(1) 数据 预 处 理 
第 一 步 Excel 处 理 :为 了 便于 进行 SPSS 分 析 , 将 上 述 原始 数据 的 Excel 文档 改 为 如 下 


x 100% 


x 100% 


数据 预 处 理 


行业 间 的 均值 方差 检验 


实验 一 


均值 向 量 和 协 方差 阵 的 检验 


形式 : 

公司 行业 净 资 产 收 | 总 资产 报 | 资 产 负债 | 总 资产 周 | 流动 资产 | 已 获 利息 | 销售 增长 | 资本 积累 

^ HRA) WRA] 率 (%) 转 率 ”| 周转 率 (%)| 倍数 率 (%) | 率 (%) 
深 能 源 A| 1 16. 85 12. 35 42. 32 0. 37 1.78 7.18 45.73 54. 54 
深 南 电 A| 1 22 15.3 46.51 0. 76 1.77 15. 67 48.11 19.41 
长 春 经 开 2 9. 85 10.5 31. 23 0. 34 0.4 17.13 18.05 | 7.18 
兴业 房产 | 2 1.07 1. 52 66. 91 0. 21 0. 24 1.53 |— 31.93 1.08 
中 兴 通 讯 3 18.78 11. 09 69. 15 0. 93 1. 08 4. 79 80.8 23.27 
长 城 电 脑 | 3 14. 94 9. 48 45. 53 1.14 1. 85 9.51 34.47 35. 93 


即 分 别 用 数字 1.2.3 来 代替 每 个 公司 所 在 的 行业 ,并 将 数据 保存 为 "1. 1 均值 方差 分 


析 . xls”。 


第 二 步 数 据 导 入 :将 xls 格式 的 Excel 数据 导入 到 SPSS 中 :打开 SPSS — 点 击 菜单 栏 
File-Read Text Data — 在 Files of Type 下 拉 列 表 中 选择 xls 格式 一 选择 之 前 保存 的 “1. 1 
均值 方差 分 析 . xls” 文 档 — 在 弹出 的 对 话 框 中 上 默认 其 选择 ,只 需 点 击 “Continue”。 

导入 成 功 后 ,将 数据 窗口 中 的 文档 保存 为 “1. 1 均值 方差 分 析 . sav”, 将 输出 窗口 中 的 文 
档 保存 为 “1. 1 均值 方差 分 析 . spv”。 

第 三 步 改变 变 量 类 型 :由 于 前 面 在 数据 预 处 理 时 ,用 简单 的 数字 1、2、3 来 表示 不 同 公司 
所 在 的 行业 ,现在 可 以 在 SPSS 中 改变 它们 的 变量 类 型 ,具体 做 法 为 : 切换 到 “Variable 
View”, 将 变量 公司 的 变量 格式 “Measure” 从 “Scales” 变 成 “Nomial”, 并 且 在 “Values” 栏 中 


逐个 输入 : 
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cfi 


I o— 
bb Po 和 & c ni 
Pret ra EE 


L 
Filename: — [11998 7r @ tie xis J lammad 
Files of type: |Excel(*ods, *xbsx, xim) o o 

[_] Minimize string widths based on observed values 


Fun $ rcr) v 119007 5 En 119007725 Ere xis 


[v] Read variable names from the first row of data 


Maximum width for string columns: 


1 = 电力 煤气 及 水 的 生产 和 供应 业 

2 = 房地产 业 ; 

3 — 信息 技术 业 。 

(2) 正 态 性 检验 

在 实际 工作 中 ,人 们 往往 很 难 直接 判断 多 元 数据 是 否 来 自 正 态 总 体 ,一 种 简单 的 办 法 是 
借助 于 考察 每 一 个 变量 的 结果 来 对 向 量 的 分 布 做 出 判断 ;并 且 , 当 数据 量 较 大 , 且 没 有 明显 
的 证 据 表 明 所 得 数据 不 遵从 多 元 正 态 时 ,通常 认为 数据 来 自 多 元 正 态 分 布 总 体 .SPSS 软件 
提供 了 对 单 变 量 进行 正 态 性 检验 的 功能 。 

按照 如 下 步骤 选择 Analyze — Descriptive Statistics -> Expolre 

将 8 个 指标 性 的 变量 选 人 Dependent List: 

在 上 图 对 话 框 中 Plots 选项 中 选择 “Normality plots with tests”, 然 后 点 击 Continue ,再 
点 击 OK: 

通过 上 述 的 正 态 性 分 析 得 到 一 系列 的 结果 ,其 中 的 “Tests of Normality” 是 我 们 这 一 步 
所 需要 的 ,其 他 的 还 有 很 多 图 ,他 们 都 是 具体 地 判断 各 个 变量 的 正 态 性 的 : 
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实验 一 
均值 向 量 和 协 方差 阵 的 检验 


5$ Explore 


Tests of Normality 


Kolmogorov-Smirnova Shapiro- Wilk 

Statistic df Sig. Statistic df Sig. 
净 资 产 收益 率 (2%) 0. 152 35 0. 039 0. 944 35 0. 077 
总 资产 报酬 率 (%) 0.137 35 0. 095 0. 942 35 0. 064 
资产 负债 率 (%) 0.144 35 0. 065 0. 939 35 0. 052 
总 资产 周转 率 0. 235 35 0. 000 0. 683 35 0. 000 
流动 资产 周转 率 (%) 0. 159 35 0. 026 0. 850 35 0. 000 
已 获 利息 倍数 0. 172 35 0.011 0. 880 35 0. 001 
销售 增长 率 (%) 0.116 35 0. 200 « 0. 982 35 0. 836 
资本 积累 率 (%) 0. 252 35 0. 000 0. 695 35 0. 000 


a. Lilliefors Significance Correction 


*. This is a lower bound of the true significance. 


此 时 ， 由 于 我 们 的 样本 容量 只 有 35 as, 远 远 小 于 Kolmogorov-Smirnov 检验 所 需要 的 
2000 个 样本 容量 的 要 求 , 所 以 只 需要 看 Shapiro- Wilk 统计 量 的 值 和 它 的 Sig. 。 
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2 Explore: Plots 


Spread vs Level with Levene Test 
(s) None 
© Power estimation 


O prstne Pose 


从 表 中 可 以 看 出 ,第 4、5、6、8 个 变量 的 正 态 性 假设 被 拒绝 了 ,所 以 这 4 个 变量 不 满足 正 
态 性 假设 ,而 剩余 的 4 个 变量 满足 正 态 性 假设 ,并 且 这 四 个 指标 涉及 了 公司 的 获 利 能 力 、 资 
本 结构 及 成 长 能 力 , 所 以 可 以 认为 这 四 个 指标 可 以 对 公司 运营 能 力作 出 近似 的 度量 。 

(3) 行业 间 的 均值 方差 检验 

按照 如 下 步骤 选择 :Analyze — General Linear Model — Multivariate; 


将 上 面 确 定 的 4 个 变量 选 入 Dependent Variables ,将 “行业 ” 选 人 Fixed Fator: 

Dependent Variables 表示 将 要 分 析 的 变量 ,而 将 “行业 ” 选 入 Fixed Fator 是 为 了 后 面 对 
这 些 指标 变量 在 不 同行 业 的 差异 进行 比较 分 析 。 

点 击 Contrasts 选 项 ,在 Contrast 下拉 列 表 中 选择 “Simple”, 并 且 点 击 Change, 然 后 点 击 
Continue; 

Contrasts 选项 中 的 这 些 分 析 用 于 具体 比较 检验 每 个 行业 与 行业 之 间 各 个 指标 变量 的 
差别 。 

点 击 Options 选项 ,将 Estimated Marginal Means 中 的 “行业 ”变量 移 到 右边 ,选中 
“Compare main effects” 复 选 框 , 在 Display 下 面 选 中 “Homogeneity tests”, 点击 Continue， 
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实验 一 
均值 向 量 和 协 方差 阵 的 检验 


e Nultivariate 


d RABRE OO [EX 


e Nultivariate: Contrasts 


然后 点 击 OK: 

Options 选 项 中 这 两 个 选择 分 别 用 来 估计 各 个 行业 内 每 个 指标 的 均值 和 方差 ,以 及 检验 
它们 之 间 的 差别 是 否 显著 。 

(=) 主要 结果 及 分 析 

(1) 结果 1-1 ~ 3: 总 体 分 析 行 业 间 的 4 个 指标 是 否 存在 差异 , 即 向 量 的 均值 检验 。 


结果 1-1 Between-Subjects Factors 


Value Label 


行业 1 电力 煤气 及 水 的 生产 和 供应 业 11 
2 房地产 业 | 15 
3 信息 技术 业 


上 表 是 样本 数据 分 别 来 自 三 个 行业 的 个 数 。 
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«t Nultivariate: Options 


Estimated Marginal Means 
factor(s) and Factor Interactions: 


Display 
[C] Descriptive statistics — [J Transformation matrix 

[ Estimates of effect size [v] Homogeneity tests] 

[C] Observed power [C] Spread vs. level plot 

[] Parameter estimates [ |Residual plot 

CI SSCP matrices C Lack of fit 

[C] Residual SSCP matrix [C] General estimable function 


Significance levet [05 — | Confidence intervals are 95.0% 


结果 1-2 Multivariate Testsc 


Effect Value F Hypothesis df Error df Sig. 
Pillais Trace .947 130. 278a 4. 000 29. 000 0. 000 
Wilks’ Lambda 0. 053 130. 278a 4. 000 29. 000 0. 000 
Hotelling’s Trace 17. 969 130. 278a 4. 000 29. 000 0. 000 
Roy’s Largest Root 17. 969 130. 278a 4. 000 29. 000 0. 000 

行业 Pillai^s Trace | 0.712 4. 149 8. 000 60. 000 0. 001 
Wilks’ Lambda 0. 388 4. 387a 8. 000 58. 000 0. 000 
Hotelling’s Trace 1. 317 4. 611 8. 000 56. 000 0. 000 
Roy's Largest Root 1.077 8.079b 4. 000 30. 000 0. 000 


a. Exact statistic 
b. The statistic is an upper bound on F that yields a lower bound on the significance level. 


c. Design: Intercept 十 行业 


该 表 给 出 了 四 个 种 多 元 检验 方法 ,一 般 它 们 的 结果 都 是 相同 的 ,如 果 不 同 ,一 般 以 
Hotelling’s Trace 方法 的 结果 为 准 。 
由 Sig. 值 可 以 看 到 ,无 论 从 哪个 统计 量 来 看 ,三 个 行业 的 运营 能 力 ( 从 净 资 产 收益 率 .总 
资产 报酬 率 .资产 负债 率 及 销售 增长 率 这 四 个 指标 的 整体 来 看 ) 是 有 显著 差别 的 。 
实际 上 ,GLM 模型 是 拟 合 了 下 面 的 模型 ; 
Y= $83 be 
其 中 ,Y = ( 兆 资 产 收益 率 总 资产 报酬 率 资产 负债 率 销售 增长 率 ) 
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X 一 行业 


实验 一 
均值 向 量 和 协 方差 阵 的 检验 


上 面 Multivariate Tests 表 实 际 上 就 是 对 该 线性 模型 显著 性 的 检验 ,此 处 有 常数 项 ,是 
因为 不 能 肯定 模型 过 原点 .而 模型 通过 了 显著 性 检验 ,也 就 意味 着 行业 的 不 同 取 值 对 Y 的 取 


值 有 显著 影响 ,也 就 是 说 不 同行 业 的 运营 能 力 是 不 同 的 。 


结果 1-3 Tests of Between-Subjects Effects 
Source possis possem ar (Mean Suare) FP Sig. 
Corrected 净 资 产 收益 率 (%) 458. 258" 2 229. 129 6. 841 0. 003 
Model 总 资产 报酬 率 (%) 250, 101* | 2 125. 050 10.034 | 0.000 
资产 负债 率 (%) 1728.665* | 2 864. 333 4.515 | 0.019 
销售 增长 率 (%) 9467.268* | 2 4733. 634 3.814 | 0.033 
Intercept 净 资 产 收 益 率 (%) 3633. 329 1 3633. 329 | 108.483 | 0.000 
总 资产 报酬 率 (%) 1987. 132 1 1987.132 | 159.453 | 0.000 
资产 负债 率 (%) 71640.788 | 1 71640.788 | 374.189 | 0.000 
销售 增长 率 (%) 15289.807 | 1 15289. 807 12. 321 | 0.001 
行业 净 资 产 收益 率 (%) 458.258 | 2 229. 129 6. 841 | 0.003 
总 资产 报酬 率 (%) 250.101| 2 125. 050 10.034 | 0.000 
资产 负债 率 ( %) 1728.665 | 2 864. 333 4.515 | 0.019 
销售 增长 率 (%) 9467.268 | 2 4733. 634 3.814 i 0. 033 
Error 净 资 产 收 益 率 (%) 1071.745 | 32 33. 492 
总 资产 报酬 率 (%) 398.790 | 32 12. 462 
VET" f [LE CHO 6126.596 | 32 191. 456 
HEKE) 39711. 458 | 32 1240. 983 
Total 净 资 产 收 益 率 (%) 4814.448 | 35 
总 资产 报酬 率 (%) 2483.797 | 35 
资产 负债 率 (%) 85553.314 | 35 
销售 增长 率 (%) 60514.046 | 35 
Corrected Total ” 净 资 产 收 益 率 (%) 1530.003 | 34 
总 资产 报酬 率 (%) 648. 891 | 34 
资产 负债 率 (%) 7855.261 | 34 
销售 增长 率 (%%) 49178.726 | 34 
a. R Squared = .300 (Adjusted R Squared = .256) 
b. R Squared = . 385 (Adjusted R Squared = . 347) 
c. R Squared = . 220 (Adjusted R Squared = . 171) 
d. R Squared = .193 (Adjusted R Squared = . 142) 


上 表 实 际 上 是 两 个 一 元 方差 分 析 表 的 合并 , 即 分 别 考虑 二 个 应 变量 时 的 方差 分 析 结 果 。 
上 面 的 多 元 方差 分 析 已 经 得 知行 业 对 应 变量 有 影响 ,从 现在 的 分 析 表 就 可 以 更 清楚 地 知道 
是 对 哪些 自 变 量 影响 较 大 ,由 该 表 可 以 看 到 ,四 个 指标 的 Sig. 值 分 别 为 0.003,0. 000,0. 019 
及 0.033 ,说 明 三 个 行业 在 四 个 财务 指标 上 均 有 显著 差别 。 
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(2) 结果 1-4 ~ 6: 每 个 财务 指标 的 分 析 结果 ,同时 给 出 了 每 个 财务 指标 的 方差 来 源 。 


结果 1-4 Contrast Results (K Matrix) 


Dependent Variable 


行业 Simple Contrast’ 净 资 产 收益 | 总 资产 报酬 i | 销售 增长 
率 (%) A CM 率 (%) 

Level 1 vs. Contrast Estimate — 1.070 1.317 — 27.850 

Level 3 Hypothesized Value 0 0 0 0 
Difference ( Estimate- Hypothesized) — 1.070 1.317 — 9.215 | — 27. 850 
Std. Error 2. 601 1.587 6. 219 15. 834 
Sig. 0. 684 0. 413 0. 148 0. 088 
95% Confidence Interval Lower Bound — 6. 368 —1.915 | — 21.883 | — 60. 102 
for Difference Upper Bound 4. 229 4. 549 3. 453 4. 402 

Level 2 vs. Contrast Estimate = 7, 855 — 4,584 7.286 | — 40. 942 

Level 3 Hypothesized Value 0 0 0 0 
Difference (Estimate- Hypothesized) — 7.855 — 4. 584 7.286 | — 40. 942 
Std. Error 2. 440 1. 488 5. 834 14. 853 
Sig. 0. 003 0. 004 0.010 
95% Confidence Interval Lower Bound — 12. 825 — 7.616 — 71.197 
for Difference Upper Bound 


a. Reference category — 3 


输出 结果 1-4 表示 ,在 0.05 水 平 下 ,第 一 行业 (电力 、 煤 气 及 水 的 生产 和 供应 业 ) 与 第 三 
行业 (信息 技术 业 ) 各 财务 指标 均 无 明显 差别 ,说 明 电力 、 煤 气 及 水 的 生产 和 供应 业 与 信息 
技术 业 运 营 能 力 在 统计 意义 上 无 显著 差别 .但 由 表 中 的 第 一 栏 可 以 看 到 ,电力 、 煤 气 及 水 的 
生产 和 供应 业 的 净 资 产 收益 率 , 资 产 负债 率 及 销售 增长 率 均 低 于 信息 技术 业 , 总 资产 报酬 率 
高 于 信息 技术 业 ,似乎 说 明 信 息 技 术 业 作为 新 生 行业 ,其 成 长 能 力 要 更 高 一 些 。 

第 二 行业 ( 房 地 行 业 ) 与 第 三 行业 的 净 资 产 收益 率 、 总 资产 报酬 率 及 销售 增长 率 三 个 指 
标 有 明显 的 差别 , 且 在 这 三 个 指标 上 第 三 行业 均 大 于 第 二 行业 。 说 明 信 息 技术 业 在 获 利 能 力 
及 成 长 能 力 上 高 于 房 地 行业 ,而 同时 信息 技术 业 的 负债 率 较 低 ,因此 整体 看 来 信息 技术 业 的 
运营 能 力 要 高 于 房 地 行 业 。 


结果 1-5 Multivariate Test Results 


Hypothesis df Error df 


Pillai" s trace 0. 712 4. 149 8. 000 60. 000 0.001 
Wilks’ lambda 0. 388 4. 387a 8. 000 58. 000 0. 000 
Hotelling's trace 1.917 4. 611 8. 000 56. 000 0. 000 


Roy's largest root 4. 000 30. 000 


该 表 是 上 面 多 重 比较 可 信 性 的 度量 ,由 Sig. 值 可 以 看 到 ,比较 检验 是 可 信 的 。 
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实验 一 


均值 向 量 和 协 方 差 阵 的 检验 
结果 1-6 Univariate Test Results 
Source Dependent Variable Sum of Squares df Mean Square F Sig. 
Contrast 净 资产 收益 率 (%) 458. 258 2 229. 129 6. 841| 0.003 
总 资产 报酬 率 (办 ) 250. 101 2 125.050 | 10.034 0.000 
资产 负债 率 (%) 1728. 665 2 864, 333 4.515] 0.019 
销售 增长 率 (%) 9467. 268 2 4733. 634 3.814 0.033 
Error ” 净 资 产 收 益 率 (%) 1071. 745 32 33. 492 
总 资产 报酬 率 (%) 398. 790 32 12. 462 
资产 负债 率 (%) 6126. 596 32 191. 456 
销售 增长 率 (%) 39711. 458 32 1240. 983 
该 表 是 对 每 一 个 指标 在 三 个 行业 比较 的 结果 ,与 上 面 Tests of Between-Subjects 


Effects dy 
(3) 结果 1-7 ~ 10: 具 体 估计 各 个 变量 在 不 同行 业 的 均值 和 方差 


结果 1-7 Box's Test of Equality of Covariance Matricesa 


Box’s M 85.152 

F 1. 410 
df1 20 

df2 2585. 573 
Sig. . 106 


Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. 


a. Design: Intercept 十 行业 


Levene's Test of Equality of Error Variancesa 


净 资 产 收益 率 (%) 
总 资产 报酬 率 (%) 
VU" fa ft CAD 
销售 增长 率 (%) 


Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design; Intercept 


十 行业 


te eg eee 检验 统计 量 是 Box’s M, fi ig 值 可 以 看 到 ,可 


以 认为 三 个 行业 (总 体 ) 的 协 方差 阵 是 相等 的 .第 二 张 表 给 出 了 各 行 一 指标 的 方差 齐 性 
检验 ,在 0. 05 水 平 下 , 净 资 产 收 益 率 及 总 LCD RR I. ene 
增长 率 的 方差 不 齐 性 .这 似乎 说 明 ,除了 行业 因素 外 ,对 资产 负债 率 与 销售 增长 率 变动 有 显 
著 影响 的 尚 有 其 他 因素 .这 与 此 处 均值 比较 没有 太 大 的 关系 。 
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结果 1-8 Estimates 


. " 95% Confidence Interval 
Dependent Variable 行业 Mean |Std. Error 
Lower Bound | Upper Bound 
净 资 产 收 益 电力 煤气 及 水 的 生产 和 供应 业 | 12.320 1.745 8. 766 15. 874 
EX 房地产 业 5.535 1. 494 2.491 8.579 
信息 技术 业 13. 390 1.929 9. 460 17. 319 
总 资产 报酬 电力 煤气 及 水 的 生产 和 供应 业 10. 108 1.064 7. 940 12. 276 
RA) 房地产 业 4. 207 .911 2. 351 6. 064 
信息 技术 业 8.791 1.177 6. 394 11.188 
资产 负债 电力 煤气 及 水 的 生产 和 供应 业 | 37.675 4. 172 29.177 46.173 
Ax C96) 房地产 业 54. 176 3. 573 46. 899 61. 453 
信息 技术 业 46. 890 4. 612 37. 495 56. 285 
销售 增长 电力 煤气 及 水 的 生产 和 供应 业 | 16.445| 10.622 一 5.190 38. 081 
率 (%) 房地产 业 3. 354 9. 096 一 15.173 21. 881 
信息 技术 业 .214 


该 表 给 出 了 每 一 行业 各 财务 指标 描述 统计 量 的 估计 


结果 1-9 Pairwise Comparisons( 略 ) 
结果 1-10 Multivariate Tests( 略 ) 


上 面 两 个 表格 给 出 了 各 个 指标 变量 在 不 同行 业 间 的 具体 差 值 估计 与 检验 。 
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。 UCU AN 
聚 类 分 析 


实验 二 聚 类 分 析 


2.1 实验 背景 


QORRI ( 样本 聚 类 ) 


系统 聚 类 分 析 


R 聚 类 分 析 ( 变量 聚 类 ) 
指定 类 别 的 数目 


We St HR Ht Dk Aa 


快速 聚 类 分 析 


本 实验 利用 SPSS 自 带 的 数据 文件 World95. sav, 以 涉及 社会 ,教育 和 经 济 方面 的 五 个 


(1)*Urban”( 城 市 人 口 比例 ); 

(2)“Lifeexpf”( 女 性 平均 寿命 ) 

(3)“Lifeexpm”( 男 性 平均 寿命 ) 

(4)“Literacy”( 有 读 写 能 力 的 人 所 占 比 例 ) 

(5)“Gdp-cap”( 人 均 国 内 总 产值 ) 

的 统计 数据 ,对 109 个 国家 进行 分 类 研究 , 演示 系统 聚 类 分 析 (Q 型 ) 和 快速 聚 类 分 析 的 
FE 


2.2 实验 步骤 和 结果 分 析 


(一 ) 系统 聚 类 法 实验 数据 

例 2.1 为 了 研究 世界 各 国 的 经 济 发 展 水 平和 文化 教育 水 平 ,以 便于 对 国家 进行 分 类 研 
BE ,这 里 我 们 进行 系统 聚 类 分 析 ,数据 为 SPSS 自 带 的 数据 文件 World95. sav, 

(=) 系统 聚 类 法 实验 步骤 

1. 打开 数据 

找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 World95. sav, 双 击 打 开 ， 
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在 打开 成 功 后 将 数据 文件 另存 为 “系统 聚 类 法 . sav” 
2. 系统 聚 类 法 分 析 
按照 如 下 的 步骤 选择 :Analyze -> Classify — Hierarchical cluster: 


将 “Urban”“Lifeexpf " Lifeexpm", "Literacy" fll"Gdp-cap" dt^ ZB & Y& A. Variables 
作为 用 于 聚 类 分 析 的 主要 变量 LE" Country" WA Label Cases by 中 表示 分 类 是 按照 不 同 国 
家 来 表示 : 


2 Hierarchical Cluster Analysis 


在 Statistics 选项 中 ,默认 选择 “Agglomeration schedule”, 它 用 于 显示 聚 类 的 整个 分 析 
过 程 ;“Cluster Membership” 中 默认 选择 “None”, 具体 分 类 的 个 数 可 以 在 后 面 判 断 。 点 
击 Continue: 
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实验 二 AN 
聚 类 分 析 


9 Hierarchical Cluster An... x 


[M Bogomeration scheduie] 


[C] Proximity matrix 
Cluster Membership 


@ None 
O Single solution 
Number of clusters: 


© Range of solutions 


Minimum number of clusters: 


Maximum number of clusters 


在 Plots 选项 中 选择 “Dendrogram”( 谱 系 图 ), 它 可 以 用 来 分 析 具 体 分 几 类 ,当选 择 了 类 
数 以 后 每 类 有 哪些 元 素 。. 在 “Icicle”( 冰 柱 图 ) 中 选择 “None”, 点 击 Continue: 


2 Hierarchical Cluster An... fx 


© Al clusters 
© Specified range of clusters 


Start cluster ir] 
Stop cluster TAA 


: 
eid 
Orientation 


(9) Vertical 
C) Horizontal 


在 Method 选项 中 ,在 “Cluster Method” 下 拉 列 表 中 选择 “Ward”s method", 表示 在 定 
SQ 28 fa] FEBS AY FH Ward Jr iz. YE" Measure” F dz 9i 3é rp BRIA“ Squared Euclidean distance”, 在 
“Transform Values” 的 “Standardize” 的 下 拉 列 表 中 选择 “Z-scores” 将 各 个 变量 进行 标准 
化 ,以 消除 各 个 变量 量 纲 不 同 对 距离 的 影响 ,点 击 Continue: 

在 Save 选项 中 ,选择 希望 保存 的 聚 类 类 别 数 范围 为 3-8, 点 击 Continue, 点 击 OK: 

(=) 系统 聚 类 法 结果 分 析 

(1) 结果 2-1 :案例 概况 图 :对 缺失 案例 的 分 析 。 
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. Hierarchical Cluster Analysis: Method 


[Sauer ed Euclidean distance 


Presert Absent 


i Hierarchical Cluster An... |X 


Cluster Membership 


O None 
(O Single solution 


Number of clusters. et 


(8) Range of solutions 
Minimum number of clusters: b ] 


Maximum number of clusters: 


Case Processing Summary* 


Cases 
Valid Missing Total 
N Percent N Percent N | Percent 
107 98.2% 2 1.8% 109 100. 0% 


a. Squared Euclidean Distance used 
从 中 发 现 有 两 个 案例 存在 缺失 数据 ,再 看 数据 文档 发 现 :第 29 位 的 Czech Rep. 和 第 75 
位 的 Oman 的 Literacy 变量 没有 数值 ,所 以 后 面 在 分 析 的 案例 真正 有 效 的 只 有 109 一 2 = 107 


个 


(2) 结果 2-2: 聚 类 过 程 图 :从 中 可 以 看 出 聚 类 的 整个 过 程 ,也 可 以 利用 它 来 判断 总 共 可 
VAT BD 
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实验 二 


聚 类 分 析 
结果 2-2 Agglomeration Schedule 
Cluster Combined m Stage Cluster First Appears 
Stage Coefficients Next Stage 
Cluster 1 Cluster 2 Cluster 1 Cluster 2 

1 29 41 0. 006 0 0 34 
2 33 45 0.017 0 0 37 
3 48 69 0. 027 0 0 20 
4 4 91 0.039 0 0 14 
5 60 82 0. 057 0 0 64 
6 34 64 0.081 0 0 18 
7 37 73 0. 105 0 0 17 
8 10 47 0. 130 0 0 32 
9 6 81 0. 158 0 0 48 
10 23 103 0. 188 0 0 2 
100 12 32 67. 865 93 75 104 
101 2 9 74.483 96 85 103 
102 1 20 85. 637 99 88 106 
103 2 7 97.060 101 97 104 
104 2 12 131. 340 103 100 105 
105 2 4 239. 354 104 98 106 
106 1 2 530. 000 102 105 0 
上 述 图 中 各 项 的 解释 : 


第 一 列 (Stage) 表示 聚 类 分 析 的 步 数 ; 

第 二 列 ,第 三 列 (Cluster Combined) 表示 这 一 步 聚 类 中 哪 两 个 国家 或 小 类 聚 成 一 类 ; 

* VY Fl (Coefficients) 表示 这 一 步 中 合并 的 两 类 之 间 的 距离 ; 

第 五 列 和 第 六 列 (Stage Cluster First Appear) 表示 这 一 步 聚 类 中 参与 聚 类 的 是 国家 还 
是 小 类 ,0 表示 国家 , 非 0 表示 由 第 k 步 聚 类 生成 的 小 类 参与 本 步 聚 类 ; 

第 七 列 (Next Stage) 表示 本 步 聚 类 的 结果 将 在 以 下 第 几 步 中 用 到 。 

例如 :第 一 步 中 合并 的 分 别 是 第 29 和 41 个 案例 ;他 们 之 间 的 距离 就 是 0. 006 ;第 一 步 中 
由 于 29 和 41 都 没有 合并 过 ,所 以 它们 的 前 一 步 合 并 都 是 0; 第 一 步 中 合并 完成 的 新 类 在 第 
34 步 中 又 发 生 了 合并 ,所 以 这 里 显示 34。 

REAR Coefficients 的 作用 : 聚 类 系数 表示 这 一 步 当 中 合并 的 两 类 的 距离 ,并 且 根 据 
系统 聚 类 法 的 方法 原理 知道 ,这 个 距离 是 这 一 步 合并 前 存在 的 所 有 类 中 距离 最 小 的 ,所 以 聚 
类 系数 关于 步 数 有 一 个 递增 的 趋势 ,下 图 是 聚 类 系数 ”: 

从 图 中 我 们 可 以 看 出 ,开始 时 聚 类 系数 递增 的 增 量 比较 缓慢 ,说 明 此 时 合并 的 类 别 之 间 
的 距离 非常 小 ,它们 理应 合并 为 同一 类 ;但 是 如 果 某 一 步 合 并 的 时 候 聚 类 系数 突然 太 大 ,说 
明 这 一 步 中 将 距离 相对 很 大 的 两 类 都 归 为 了 一 类 ,那么 这 样 做 是 不 合理 的 ,所 以 合理 的 分 类 
应 该 是 在 前 一 步 停 止 。 

例如 第 104 步 中 , 聚 类 系数 突然 增 大 了 超过 34, 而 之 前 最 大 的 增 速 也 只 是 11 左右 ,所 以 
应 该 在 第 103 步 合并 完 以 后 就 停止 ,由 于 总 共有 107 个 有 效 案例 ,合并 次 数 是 103, 所 以 总 共 
的 分 类 为 107 — 103 = 4, 
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当然 ,关于 系数 突然 增加 多 少时 可 以 看 成 是 一 个 很 大 的 变换 ,这 是 一 个 主观 的 问题 , 例 
如 上 面 还 可 以 说 第 103 的 超过 11 的 增 量 是 突变 ,所 以 应 该 分 为 5 类 ;也 可 以 说 第 105 的 超过 
100 的 增 量 是 突变 ,所 以 应 该 分 为 3 类 。 

(3) 结果 2-3 :每 个 案例 在 选择 不 同 分 类 数 (3-8) 时 的 具体 归属 : 


结果 2-3 Cluster Membership 


Case 8 Clusters 7 Clusters 6 Clusters 5 Clusters 4 Clusters 3 Clusters 
1:Afghanistan 1 1 1 1 
2:Argentina | 2 2 2 2 
3; Armenia 2 2 | 2: 2 
4; Australia 3 3 3 3 
5; Austria 3 3 3 3 
6; Azerbaijan 2 2 2 2 
105; Venezuela 2 2 2 2 
106; Vietnam 6 6 5 5 
107 : Zambia 


上 表 中 第 二 列 给 出 了 当 总 共 分 为 8 类 时 ,每 个 有 效 样本 他 们 所 在 的 分 类 .后 面 几 类 可 以 
同样 解释 。 

(4) 结果 2-4: 谱 系 图 :从 中 可 以 非常 直观 地 看 出 分 几 类 ,每 类 哪些 元 素 

结果 2-4. 

谱系 图 给 出 了 聚 类 全 过 程 的 直观 表示 。 

在 图 中 ,将 最 大 的 类 间距 离 算 作 相 对 距离 25, 然 后 把 其 他 的 距离 都 换算 成 与 之 相对 应 
的 距离 .根据 研究 的 目的 ,结合 聚合 系数 的 分 析 ,不 妨 之 上 往 下 分 别称 为 第 1.2.3、4 类 : 

第 1 类 非常 明显 的 是 发 达 国 家 和 地 区 ; 

第 2 类 是 以 中 国 (China) 为 代表 的 发 展 中 国家 ; 

第 3 类 是 以 俄罗斯 (Russia) 为 代表 的 发 展 中 国家 ; 

第 4 类 是 以 索马里 (Somalia) 为 代表 的 最 贫困 的 发 展 中 国家 。 

当然 , 若 只 想 把 107 个 国家 分 为 两 类 ,那么 可 以 把 上 面 的 第 一 类 和 第 二 类 合并 在 一 起 ， 
这 是 通过 谱系 图 中 连接 它们 的 桥 线 看 出 来 的 ,此 时 所 有 国家 就 分 为 中 等 发 展 中 国家 以 上 的 
国家 (能 够 解决 温饱 问题 ) 和 非常 贫困 的 发 展 中 国家 (不 能 解决 温饱 问题 ) 。 
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CASE 
Label 


Denmark 
Germany 
Israel 
Singapore 
Nong 
Austria 
Switzerland 
USA 

Egypt 
Guatemala 
Iran 
Nicaragua 
Syria 
Morocco 
Botswana 
Indonesia 
South Africa 
Bolivia 
Bahrain 
Kuwait 
Paraguay 
Costa Rica 
Bosnia 
Cuba 
Lebanon 
Liberia 
Senegal 
Bangladesh 
Cambodia 
Ethiopia 


Zambia 


19 
35 
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(四 ) 快速 聚 类 法 实验 数据 
例 2.2 为 了 研究 亚洲 国家 的 经 济 发 展 水 平和 文化 教育 水 平 ,试图 将 亚洲 国家 或 地 区 
按 经 济 和 文教 水 平分 为 三 类 ,这 里 我 们 进行 快速 聚 类 分 析 。 数 据 为 SPSS 自 带 的 数据 文件 
World95. sav, 此 时 用 的 聚 类 方法 为 快速 聚 类 法 。 
(A) 快速 聚 类 法 实验 步骤 


1. 打开 数据 


Dendrogram using Ward Method 
Rescaled Distance Cluster Combine 


0 3 10 15 20 
Num t= ss Te es a 十 


| 


JA qr ae ae iene IE Ld 


25 


[Es lp dy o0 S a 


实验 二 
聚 类 分 析 


找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 World95. sav, 双 击 打 开 ， 
在 打开 成 功 后 将 数据 文件 另存 为 “快速 聚 类 法 . sav". 


115 


` 
=. * ad » 
-— 


2. 筛选 数据 
i. 首先 将 数据 排序 :Data Sort Cases: 


EV Define Variable Properties... 
Bn New Custom Attribute 


iii， 从 排序 完 的 数据 窗口 中 将 "region” 取 值 不 为 3 的 所 有 案例 全 部 删除 ,删除 成 功 后 保 
存 文档 。 

3. 快速 聚 类 法 分 析 : 

按照 如 下 的 步骤 选择 :Analyze — Classify — K-Means cluster; 
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实验 二 amm 
聚 类 分 析 


将 “Urban”、“Lifeexpf”、“Lifeexpm”、“Literacy” 和 “Gdp-cap” 五 个 变量 选 入 Variables 
作为 用 于 聚 类 分 析 的 主要 变量 ,将 "Country” 选 入 Label Cases by 中 表示 分 类 是 按照 不 同 国 
家 来 表示 ,在 Number of Cluster 选项 中 选择 3, 即 预先 定 为 分 成 3H: 


RS Cluster Analysis 


© Open dataset hd 
(€) External data tile 


[C] Write finat: 


($) New dataset 


O Data file | 
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在 Iterate 选项 中 ,选择 “Maximum Iterations” 为 100 次 ,点 击 Continue: 


td K-Neans Cluster Analysi... X 


在 Options 选项 中 ， 选 择 “Initial cluster center", “ANOVA table” 4l “Cluster 
information for each case”, 分 别 用 来 显示 初始 类 中 心 、 检 验 类 间 差 异 和 具体 分 类 信息 。 点 


击 Continue: 


i K-Neans Cluster Analysi... X 


在 Save 选项 中 ,选择 “Cluster membership" , SPSS 将 会 保存 每 个 样本 归 为 哪 一 类 这 个 
信息 。 点 击 Continue, 然 后 点 击 OK 


5 K- Beans Cluster: Save N... "x| 


(六 ) 快速 聚 类 法 结果 分 析 
(1) 结果 2-5 :最 初 各 类 的 重心 : 
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实验 二 Amm 


聚 类 分 析 
结果 2-5 Initial Cluster Centers 
Cluster 

1 2 3 
People living in cities (%) 18 71 
Average female life expectancy 44 78 
Average male life expectancy 45 72 
People who read (94) 29 91 
Gross domestic product / capita 


上 表 的 结果 非常 直观 ,就 不 做 解释 了 。 
(2) 结果 2-6 :样品 分 类 情况 : 


结果 2-6 Cluster Membership 


Case Number country Cluster Distance 
1 Afghanistan 1 571, 615 
2 Bangladesh 1 573. 924 
3 Cambodia 1 516.229 
4 China 1 398.151 
5 Hong Kong 2 1856. 036 
6 India 1 500. 047 
7 Indonesia 1 94, 543 
8 Japan 2 3363. 045 
9 Malaysia 1 2220. 274 
10 N. Korea 1 230. 069 
11 Pakistan 1 370. 165 
12 Philippines 1 96. 542 
13 S. Korea 3 214, 034 
14 Singapore 2 1507.033 
15 Taiwan 3 214. 034 
16 Thailand 1 1025. 608 
17 Vietnam 1 545. 396 


JA “Cluster Membership” 全 表 中 可 以 看 到 每 个 国家 具体 的 分 类 .其 中 Afghanistan, 
Bangladesh,Cambodia,China,India,Indonesia, Malaysia, N. | Korea, Pakistan, Philippines, 
Thailand 和 Vietnam 这 些 发 展 中 国家 被 分 为 了 第 一 类 。 这 些 国家 或 地 区 的 经 济 水 平和 文教 
水 平 都 相对 较 低 。 这 个 结论 可 以 结合 下 面 的 结果 2-7 来 解释 ,从 中 可 以 看 出 第 一 类 的 各 项 指 
标 都 非常 明显 地 低 于 其 他 两 类 。 

第 二 分 类 中 的 国家 或 地 区 包括 Hong Kong Japan 和 Singapore, 从 结果 2-7 可 以 看 出 ， 
这 三 个 国家 或 地 区 的 所 有 指标 都 是 最 高 的 ,它们 是 亚洲 经 济 和 文教 水 平 最 发 达 的 地 方 。 

第 三 分 类 包括 S. Korea 和 Taiwan, 它 们 是 介 于 中 间 的 国家 和 地 区 , 比 发 展 中 国家 整体 
水 平 高 ,但 是 比 不 上 Hong Kong Japan 和 Singapore, 

(3) 结果 2-7 :最 后 各 类 的 重心 : 
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结果 2-7 Final Cluster Centers 


Cluster 
: 1 2 3 
People living in cities (% ) 29 90 72 
Average female life expectancy 63 80 76 
Average male life expectancy 60 75 70 
People who read (%) 66 88 94 
Gross domestic product / capita 


(4) 结果 2-8 :方差 分 析 表 (类 间 差 别 检验 ) ， 


结果 2-8 ANOVA 


Cluster Error . 
Mean Square df Mean Square Df T Sig. 

People living in cities ( 4) 5336. 488 2 169. 577 14 31.469 | 0.000 

Average female life expectancy 454. 600 2 70. 494 14 6.449 | 0.010 

Average male life expectancy 321, 326 2 41. 113 14 7.816 0. 005 

People who read (%) 1073. 096 2 570. 625 14 1.881 | 0.189 

Gross domestic product / capita 3. 042E8 2 1780295. 690 14 170.846! 0.000 
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the 
differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be 


interpreted as tests of the hypothesis that the cluster means are equal. 


从 上 面 的 方差 分 析 表 的 显著 水 平 Sig. 可 以 看 出 ,所 有 5 个 变量 中 除了 第 四 个 变量 外 ,其 


他 四 个 变量 都 存在 显著 的 差别 。 
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实验 三 
判别 分 析 


实验 二 判别 分 析 


3.1 实验 背景 


SPSS 的 Discriminant 模块 提供 三 种 判别 分 析 的 方法 :(1) 使 用 SPSS 默 认 选 项 进行 判别 
分 析 ,给 出 的 是 标准 化 的 Fisher 判别 函数 结果 ;(2) 使 用 选择 项 进行 判别 分 析 ,给 出 Bayes 判 
别 的 结果 ,但 需要 注意 的 是 ,输出 Bayes 判别 的 复 选 框 的 名 字 叫 Fisher, 这 是 因为 这 种 思想 
是 Fisher 提出 的 ,故而 SPSS 如 此 命名 ;(3) 进行 逐步 判别 分 析 。 

本 实验 通过 例 3. 1 说 明 (1)(2) 在 SPSS 中 的 实现 ,利用 例 3. 2 展示 如 何 进 行 逐步 判别 
分 析 。 


3.2 ”实验 步骤 和 结果 分 析 


(—)Fisher 判别 法 和 Bayes 判别 法 实验 数据 

例 3. 1 一 个 城市 的 居民 家 庭 , 按 其 有 无 制 草 机 可 分 为 两 组 ,有 制 草 机 的 一 组 记 为 m , 没 
有 制 草 机 的 一 组 记 为 x; , 割 草 机 工厂 欲 判 断 一 些 家 庭 是 否 将 购买 割 草 机 .从 r 和 x 分 别 随 
机 抽取 12 个 样品 ,调查 两 项 指标 :xi — 家 庭 收入 ;xs 房 前 屋 后 土地 面积 数据 如 下 : 


A Pi EBL AK BE 无 割 草 机 家 庭 
xl x2 xl x2 
20.0 9.2 25.0 | 9.8 
28.5 8.4 17.6 10.4 
21.6 10. 8 21.6 8.6 
20. 5 10.4 14.4 10.2 
29.0 11.8 28.0 8.8 
36. 7 9. 6 16.4 8.8 
36.0 8.8 19.8 8.0 
27. 6 11.2 22.0 9.2 
23.0 10.0 15.8 8.2 
31, 0 10.4 | 11.0 9.4 
17.0 11.0 17.0 7.0 
27.0 10.0 21:0 7.4 
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(C )Fisher 判别 法 实验 步骤 

1. 数据 预 处 理 

第 一 步 Excel 处 理 : 为 了 便于 进行 SPSS 分 析 , 将 上 述 原始 数据 的 Excel 文档 改 为 如 下 
形式 : 


y CH 2c SI SR ELA REO xl( 家 庭 收 入 ) x2( 房 前 屋 后 土地 面积 ) 
1 20.0 9.2 
1 T 8.4 
1 F: 10.8 
1 .B 10.4 
1 a 11.8 
1 E 9.6 
1 .0 8.8 
1 | .6 
1 23.0 10.0 
1 31.0 | 10.4 
1 17.0 11.0 
1 27.0 10.0 
0 25.0 9.8 
0 17.6 10.4 
0 21.6 8.6 
0 14.4 10.2 
0 28.0 8.8 
0 16.4 8.8 
0 19.8 8.0 
0 22.0 9.2 
0 15.8 8.2 
0 11.0 9.4 
0 17.0 7.0 
0 21.0 1| ee 


即 分 别 用 数字 1、0 SE CBE — TA ae A CDL H BO RAE x 和 x, 数据 合 
并 ,并 将 数据 保存 为 “判别 分 析 . xls”。 

第 二 步 数据 导入 :将 xls 格式 的 Excel 数据 导入 到 SPSS 中 :打开 SPSS 一 点 击 菜单 栏 
File-Read Text Data — 在 Files of Type 下拉 列表 中 选择 xls 格式 — 选择 之 前 保存 的 “判别 
分 析 . xls" 文档 — 在 弹出 的 对 话 框 中 默认 其 选择 ,只 需 点 击 “Continue”; 具体 步骤 和 前 面 均 
值 方差 分 析 一 样 , 所 以 就 不 用 图 示 了 。 导 入 成 功 后 ,将 数据 窗口 中 的 文档 保存 为 “判别 分 
析 . sav”. 

第 三 步 改 变 变 量 类 型 :由 于 前 面 在 数据 预 处 理 时 ,用 简单 的 数字 1、0 来 代替 一 个 家 庭 是 
BAREH, 现在 可 以 在 SPSS 中 改变 它们 的 变量 类 型 , 具体 做 法 为 : 切换 到 “Variable 
View”, 将 变量 y 的 变量 格式 “Measure” 从 “Scales” 变 成 “Nomial”, 并 且 在 “Values” 栏 中 逐 
个 输入 : 

1 = A SR PLACE s 
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实验 三 
判别 分 析 
0 = 无 割 草 机 家 庭 。 
2. Fisher 判别 法 与 Bayes 判别 法 
按照 如 下 步骤 选择 :Analyze — Classify — Discriminant: 


将 变量 “y” 选 入 Grouping Variable, Xf "x1" #Al“x2” % A Independents, 点 击 Define 
Range”( 判 别 分 析 定 义 范围 ) 对 话 框 , 在 “Minimum?” 文 本 框 中 输入 该 分 组 变量 的 最 小 值 0， 
在 “Maximum” 文 本 框 中 输入 该 分 组 变量 的 最 大 值 1 , 单 击 ^Continue” 按 钮 ,返回 主 对 话 框 


- Discriminant Analysis 


Enter independents together 默认 选项 。 当 认为 所 有 自 变量 都 能 对 观测 特性 提供 丰富 的 
言 息 时 ,使 用 该 选项 ,选择 该 项 将 不 加 区 别 地 使 用 所 有 自 变 量 进 行 判 别 分 析 ,建立 全 模型 , 且 
不 需要 进一步 选择 ,这 里 选择 默认 项 。 
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Use stepwise method 逐步 分 析 方 法 。 当 认为 不 是 所 有 自 变 量 都 能 对 观测 量 特性 提供 丰 
富 的 信息 时 , 选择 该 项 , 因此 需要 判别 贡献 的 大 小 再 进行 选择 。 选中 该 单 选 按钮 时 ， 
“Method” 按 钮 被 激活 ,可 以 进一步 选择 判别 分 析 方法 。 

在 Statistics 选项 中 ,可 以 选择 很 多 对 于 Fisher 判别 法 适用 条 件 的 检验 ,例如 方差 齐 性 
等 ,同时 ,还 可 以 给 出 Fisher 判别 的 非 标准 化 系数 ,具体 选择 为 :在 Descriptives 选项 下 选择 
“Means”, “Univariate ANOVAs” 和 “Box’s M"; 在 Function Coefficients 选项 下 选择 
Unstanardized ,注意 ,选项 Fisher’s 表示 输出 Bayes 判别 函数 ,点 击 Continue: 


“2 Discriminant Analysis: Statistics 


unction Coefficients 
| [.] Eisher's 


在 Classify 选项 中 , 可 以 选择 将 判别 结果 进行 图 形 化 的 展示 , 选择 Plots 下 面 的 


"Combined-groups" ,"Separate-groups" fil" Territorial map", 


5 Discriminant Analysis: Classification 


Prior Probabilities - 
@) All groups equal 


© Compute from group sizes 


[C] Casewise results 
i C] Limit cases to first 
bl [C] Summary table 


[C] Replace missing values with mean 
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实验 三 


判别 分 析 
(三 )Fisher 判别 法 结果 分 析 
CD 结果 3-1: 有 效 样本 分 析 、 均 值 方差 适用 条 件 检验 
结果 3-1-1 Analysis Case Processing Summary 
Unweighted Cases N Percent 
Valid 24 100. 0 
Missing or out-of-range group codes 0 0.0 
At least one missing discriminating variable 0 0.0 
Excluded Both missing or out-of-range group codes and ò T 
at least one missing discriminating variable g 
Total 0 0.0 
Total 24 100. 0 


结果 3-1-2 Group Statistics 


Nu i m Valid N (listwise) 

y( 有 无 割 草 机 家 庭 ) Mean Std. Deviation Unweighted | Weighted 
无 割 草 机 家 庭 xl( 家 庭 收 入 ) 19. 133 4. 7224 | 12 12. 000 

x2( 房 前 屋 后 土地 面积 ) 8. 817 1.0564 12 12. 000 
有 制 草 机 家 庭 xl( 家 庭 收 入 ) 26. 492 6. 2596 12 12. 000 

x2( 房 前 屋 后 土地 面积 ) 10.133 1. 0103 12 12. 000 
Total xl( 家 庭 收 入 ) 22. 812 6. 5977 24 24. 000 

x2( 房 前 屋 后 土地 面积 ) 9. 475 1. 2141 24 24. 000 


结果 3-1-3 Tests of Equality of Group Means 
Wilks’ Lambda F dfl df2 Sig. 


xl( 家 庭 收入 ) .676 10. 568 1 22 . 004 
x2( 房 前 屋 后 土地 面积 ) . 693 9.736 
结果 3-1-4 Log Determinants 
y( 有 无 割 草 机 家 庭 ) Rank Log Determinant 
无 割 草 机 家 庭 3. 207 
有 制 草 机 家 庭 3.587 


Pooled within-groups .447 


The ranks and natural logarithms of determinants printed are those of the group covariance matrices. 


结果 3-1-5 Test Results 


Box’s M 1. 102 


F Approx. 0. 331 
dfl 3 
df2 87120. 000 


Sig. 0. 803 


Tests null hypothesis of equal population covariance matrices. 


结果 3-1-1 给 出 有 效 样 本 数目 ,从 数据 中 可 以 看 出 所 有 24 个 样本 都 是 有 效 的 .结果 3-1-2 
给 出 两 组 数据 分 别 的 均值 方差 估计 。 结 果 3-1-3 给 出 两 组 间 均 值 的 比较 ,从 显著 性 水 平 Sig. 
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可 以 看 出 ,两 组 数据 的 xl 和 x2 变量 的 均值 都 存在 显著 的 差异 ,所 以 满足 判别 分 析 所 要 求 的 
适用 条 件 ,结果 3-1-4 和 3-1-5 给 出 了 两 组 间 变 量 x1 和 x2 方差 齐 性 的 检验 .从 结果 3-1-5 的 
显著 性 水 平 可 以 看 出 , 齐 方差 性 没有 被 拒绝 ,因此 符合 判别 分 析 的 适用 条 件 。 

(2) 结果 3-2: 判 别 结果 分 析 


结果 3-2-1 Eigenvalues 


Function Eigenvalue 


% of Variance 


Cumulative % 


Canonical Correlation 


1 1. 167a 


100. 0 


a. First 1 canonical discriminant functions were used in the analysis. 


Test of Function(s) 


Wilks’ Lambda 


结果 3-2-2 Wilks’ Lambda 


Chi-square 


100. 0 


0. 734 


1 0. 461 


16. 243 


2 0. 000 


结果 3-2-3 Standardized Canonical Discriminant Function Coefficients 


Function 
1 
xl( 家 庭 收入 ) 0. 806 
x2( 房 前 屋 后 土地 面积 ) 0. 785 
结果 3-2-4 Canonical Discriminant Function Coefficients 
Function 
T 
xl( 家 庭 收入 ) 0. 145 
x2( 房 前 屋 后 土地 面积 ) 0. 759 
(Constant) — 10. 508 
Unstandardized coefficients 
结果 3-2-$ Structure Matrix 
Function 
1 
xl( 家 庭 收入 ) 0. 641 
x2( 房 前 屋 后 土地 面积 ) 0. 616 


Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions 


Variables ordered by absolute size of correlation within function. 


结果 3-2-6 Functions at Group Centroids 


yY( 有 无 割 草 机 家 庭 ) n 
无 制 草 机 家 庭 MTT 
7H Hl) HEL AR BE Ls 


Unstandardized canonical discriminant functions evaluated at group means 


由 于 此 时 的 分 类 变量 y 只 分 为 2 组 ,而 且 用 于 分 析 的 自 变量 也 只 有 2 个 ,所 以 Fisher Jl 
别 函数 的 个 数 为 min{2,2-1} = 1, 即 只 有 一 个 判别 函数 。 
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实验 三 
判别 分 析 
结果 3-2-1 给 出 了 Fisher 判别 函数 对 应 的 特征 值 , 由 于 在 判别 分 析 中 ,一 个 判别 函数 所 
代表 的 方差 量 用 所 对 应 的 特征 值 (eigenvalue) 来 相对 表示 , 即 组 间 偏 差 平 方 和 与 组 内 偏差 
平方 和 之 比 ,方差 越 大 说 明 分 组 差异 越 显著 , 即 该 判别 函数 对 总 的 判别 结果 影响 越 明 显 C 
别 能 力 越 强 ) 。 典 型 相关 系数 Canonical correlations 


Can. Corr = fes erm 
典型 相关 系数 值 越 大 ,在 这 一 判别 轴 上 分 组 差异 越 明显 。 
结果 3-2-2 给 出 了 Wilks’ Lambda 值 ,间接 地 进行 判别 函数 的 显著 性 检验 ,其 值 越 小 表 
示 越 高 的 判别 力 : 


I 
" t = 1 
Wilks Lambda I 1 十 Eigenvaluei 


从 Sig. 可 以 看 出 第 一 个 判别 函数 的 特征 值 是 显著 非 零 的 , 即 它 的 信息 量 是 显著 非 零 的 。 

结果 3-2-3 和 结果 3-2-4 分 别 给 出 了 标准 化 与 未 对 xl 和 x2 进行 标准 化 的 线性 判别 函数 
的 判别 系数 。 

Tg HE 4539] 91] PRU :ZFunc = 0. 806zx, 4- 0. 785zx; 

Fisher 判别 函数 为 :Func = 0. 145x, 4- 0. 759x; — 10. 508 

非 标准 化 判别 函数 是 用 来 计算 判别 值 的 ,标准 化 判别 系数 比较 各 变量 对 判别 值 的 相对 
作用 程度 :哪个 变量 的 标准 化 系数 的 绝对 值 大 ,就 意味 着 它 对 判别 值 有 较 大 影响 。 从 标准 化 
判别 函数 可 以 看 出 ,xl 因素 的 分 组 能 力 较 x2 因素 强 , 若 xl = 20,x2 = 8, 那 么 判别 的 得 分 
为 :一 0.018 = 0.145 « 20+ 0. 759 x 10 — 10. 508, 

结果 3-2-5 给 出 了 判别 得 分 ( 即 判别 函数 的 应 变量 ) 与 自 变 量 的 相关 系数 , 它 可 以 用 来 
表示 判别 函数 中 各 个 自 变量 对 判别 得 分 起 作用 的 大 小 。 从 上 面 可 以 看 出 ， 家 庭 收入 ”对 判 
别 得 分 显得 略微 重要 。 


结果 3-3-1:Canonicaal Discriminant Function] 


y( 有 无 制 草 机 家 庭 )= 无 制 草 机 家 庭 


Mean=1.03 
Std.Dev.=1.009 
N=12 


结果 3-2-6 给 出 了 由 每 个 判别 函数 给 出 的 各 组 的 判别 重心 。 利 用 Fisher 判别 函数 计算 出 
各 观测 值 具体 坐标 后 ,再 计算 出 离 各 重心 的 距离 , 则 可 得 知 分 类 情况 ,由 于 这 里 只 有 一 个 判 
别 函 数 , 所 以 对 于 每 组 只 有 一 个 判别 重心 。 
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结果 3-3-2:Canonicaal Discriminant Functionl 


y( 有 无 割 草 机 家 庭 )= 无 割 草 机 家 庭 


Mean=1.03 
Std.Dev.=0.991 
N=12 


0 


(3) 结果 3-2-7 :图形 化 显示 的 判别 结果 : 

由 于 此 时 只 有 一 个 判别 函数 ， 所 以 领域 图 (Territorial map) 和 联合 分 布 图 
(Combined-groups) 都 不 能 显示 ,只 能 显示 单独 分 布 图 (Separate-groups) 的 内 容 。 当 判别 郴 
数 个 数 = min{ 自 变量 个 数 ,分 组 数 -1} 超过 一 个 时 ,通过 领域 图 和 联合 分 布 图 可 以 非常 直观 
的 判断 样本 被 判别 到 哪 一 组 。 

上 面 两 个 图 分 别 给 出 了 两 组 样本 内 样本 数 关于 第 一 个 判别 函数 值 的 条 形 图 。 例 如 结果 
3-3-1 中 表示 判别 函数 取 值 在 [一 3, — 2] 内 的 样本 数 只 有 一 个 。 

(四 )Bayes 判别 法 实验 步骤 

在 这 里 ,我 们 依然 利用 例 3. 1 的 有 关 数 据 进 行 实验 ,在 Statistics 选项 中 ,选项 Fisher's 
表示 输出 Bayes 判别 函数 ,选择 该 选项 ,点 击 Continue。 


t Discriminant Analysis: Statistics X| 


在 Classify 选项 中 , 在 Display 选项 组 中 选择 生成 到 输出 窗 中 的 分 类 结果 , 其 中 
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实验 三 
判别 分 析 
Summary table 要 求 输出 分 类 的 综述 表 , 给 出 正确 分 类 观测 数 (原始 类 和 根据 判别 函数 计算 
的 预测 类 相同 ) 和 错 分 观测 量 数 即 错 分 率 ;Leave-one-out classification 输出 对 每 个 观测 量 
进行 分 类 的 结果 ,所 依据 的 判别 时 由 除 该 观测 量 以 外 的 其 他 观测 量 导出 的 ,也 称 为 交互 校 验 
结果 ,点 击 Continue。 然 后 点 击 OK. 
在 Prior Probabilities 选项 中 选择 先 验 概率 ,有 两 个 单 选项 供 选 择 :All groups equal 表 
示 各 类 先 验 概率 相等 ,Compute from groups sizes 表示 由 各 类 的 样本 量 计算 决定 , 即 各 类 的 
先 验 概率 与 其 样本 量 成 正比 ,这 里 选择 该 项 。 


S Discriminant Analysis: Classification 


CB) Bayes 判别 法 结果 分 析 
结果 3-3-1 Prior Probabilities for Groups 


: r . Cases Used in Analysis 
有 无 割 草 机 Prior 


Unweighted Weighted 
无 割 草 机 | 0. 500 12 12. 000 
LEE 0. 500 12 12. 000 
Total 1. 000 24 24. 000 


结果 3-3-2 Classification Function Coefficients 
有 无 割 草 机 


无 割 草 机 有 制 草 机 


家 庭 收 入 0. 988 1. 289 
屋 前 屋 后 的 土地 面积 


(Constant) 


Fisher’s linear discriminant functions 
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结果 3-3-3 Classification Resultsb,c 


有 无 割 草 机 Predicted Group Membership Total 

| | 无 制 草 机 | wem im 

Count 无 割 草 机 10 2 12 

oe LEE XI 1 11 12 

Original 

% 无 割 草 机 83.3 16.7 100.0 
Ai 88 ELL 8.3 91.7 100. 0 

Count 无 割 草 机 9 3 12 

A EBL 2 10 12 

Cross-validated* 

% 无 割 草 机 75.0 25.0 100.0 
LESE EU 16.7 83.3 100. 0 


a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the 
functions derived from all cases other than that case. 
b. 87.5% of original grouped cases correctly classified. 


c. 79.2% of cross-validated grouped cases correctly classified. 


结果 3-3-1 A, h TA EU CB 5 Z6 A CIL O EE ZI SA, SBS BH tc BS 

结果 3-3-2 中 ,给 出 了 Bayes 判别 函数 : 

第 一 类 判别 函数 为 :F, = 0. 988x, + 9. 363x, — 51. 421 

第 二 类 判别 函数 为 :F, = 1. 289x, 十 10.934xs 一 73. 16 

将 两 样品 的 自 变 量 值 代 人 上述 两 个 贝 叶 斯 判别 函数 ,得 到 两 个 函数 值 ,比较 这 两 个 函数 
值 , 哪 个 函数 值 比较 大 就 可 将 该 样品 判 人 该 类 。 

结果 3-3-3 中 ,给 出 了 正确 .错误 判别 率 。 各 组 正确 判别 率 为 83. 372 和 91. 7 多 ,交互 验证 
法 :两 组 的 正确 判别 率 分 别 为 75 吧 和 83.3%. 

(六 ) 逐步 判别 法 实验 数据 

例 3. 2 研究 者 希望 能 够 根据 气候 、 经 济 因素 、 人 口 等 信息 来 判断 某国 家 或 地 区 属于 哪 一 
类 型 .这 里 国家 country( 因 变量 ) 有 3 种 类 别 ,OECD 表示 经 合 组 织 的 国家 (包括 美国 .加 拿 
大 和 西欧 等 发 达 国 家 ) ,Pacific/Asia 表示 亚太 地 区 的 国家 ,Africa 表示 非洲 地 区 的 国家 。 考 
虑 了 以 下 几 个 自 变 量 ,climate( 气 候 因素 ,包括 沙漠 气候 .干旱 气候 .地 中 海 气候 海洋 气候 、 
温带 气候 和 极地 气候 等 ),urban( 城 市 居民 的 比例 ),population( 人 口 数 ),gdp_cap( 人 均 
GDP) ,数据 集 来 自 SPSS10.0 自 带 的 数据 集 World95. sav. 

CE) 逐步 判别 法 实验 步骤 

1. 打开 数据 

找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 World95. sav, 双 击 打 开 ， 
在 打开 成 功 后 将 数据 文件 另存 为 “逐步 判别 分 析 . sav". 

2. 筛选 数据 

首先 将 数据 排序 :Data — Sort Cases: 
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实验 三 
判别 分 析 


Bü New Custom Attribute 


将 地 区 变量 “region” 选 人 Sort by, 然 后 点 击 OK: 


œ Sort Cases 


从 排序 完 的 数据 窗口 中 将 “region” 取 值 为 2(East Europe) ,5C(Middle East) 和 6C(Latin 
America) 的 所 有 案例 全 部 删除 ; 然后 切换 到 “Variable View”， 将 除了 “country”、 
“population”“urban”、“gdp_cap”、“region” 和 “climate” 这 些 变 量 以 外 的 其 他 所 有 变量 删 
除 , 删 除 成 功 后 保存 文档 ; 
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=. ee 


“region” 重新 按 1 一 3 编号 :首先 按 如 下 方式 选择 :Transform -> Recode into 


Same Variables; 


@® Run Pending Transtorms 


. Recode into Same Variables 


点 击 Old and New Values 选项 ,在 Old Value 框 内 输入 3. E New Value 框 内 输入 2, 点 
击 Add, 直 到 将 所 需 改 变 的 变量 值 都 输入 完成 .点 击 Continue, A di OK: 
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实验 三 
判别 分 析 


: Recode into Same Variables: Old and New Values 


«at Value Labels 


Value Labels 
ek o 
Labet: [Pacific/Asia 
Add | 1 = "OECD" 
Cs awe ] 3 Africa" 
je 


ch 


让 


3. 逐步 判别 分 析 
按照 如 下 方式 选择 :Analyze — Classify -> Discriminant: 将 “region” 变 量 选 人 


Grouping Variables ,点 击 Define Range, E Minimum WHA 1, Æ Maximum 内 输入 3 ,表示 


所 要 选择 的 分 组 从 第 一 组 到 第 三 组 ; 将 “population”“urban”“gdp_cap” 和 “climate” 这 四 
个 变量 选 人 Independents; 选 择 Use stepwise method 逐步 分 析 方 法 。 


«a Discriminant Analysis 


— | ado. cop 
© Enter independents together 
(© Use stepwise method 
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5 Discriminant Analysis: Define Range 


42 Discriminant Analysis: Stepwise Method 


© Use F value 


Entry: [3.84 | Removat 


© Use probability of F 


Entry 05. Removal 


ei Discriminant Analysis: Statistics Xx 
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实验 三 


FLA 
= Discriminant Analysis: Class 
L.] Lima cases to first ET 
C] Summary table 
[C] Leave-one-out classification 
( 八 ) 逐步 判别 法 结果 分 析 
CD 结果 3-4: 样 本 有 效 性 分 析 、 判 别 分 析 适 用 条 件 检验 : 
结果 3-4-1 Analysis Case Processing Summary 
Unweighted Cases N Percent 
Valid 56 98.2 
| Missing or out-of-range group codes 0 0.0 
| At least one missing discriminating variable 1 1.8 
Excluded Both missing or out-of-range group codes and at least 0 0.0 
one missing discriminating variable d 
| Total ] 1.8 
Total 57 100. 0 


结果 3-4-2 Group Statistics 


Valid N (listwise) 


Region or economic group Mean Std. Deviation : - 
Unweighted Weighted 
Population in thousands 33085. 10 57148. 252 21 21.000 
. People living in cities (6) 74. 71 14. 890 21 21.000 
QESD Gross domestic product / capita 16610. 86 3725. 971 21 21.000 
Predominant climate 7. 76 1. 261 21 21.000 
Population in thousands 189012.50 | 348024.915 16 16.000 
= . | People living in cities (%) 43. 12 28. 654 16 16.000 
Pacific/ Asia : = 

Gross domestic product / capita 4088. 50 6454. 734 16 16. 000 
Predominant climate 5.75 1. 483 16 16. 000 
Population in thousands 19757. 11 24357. 858 19 19. 000 
Ai People living in cities (4) 29. 26 15. 062 19 19. 000 
Gross domestic product / capita 998. 68 1178. 258 19 19. 000 
Predominant climate 4. 89 1. 629 19 19. 000 
Population in thousands 73113. 79 199794. 360 56 56. 000 
‘Total People living in cities (%) 50. 27 27.825 56 56. 000 
Gross domestic product / capita 7736.05 8154. 118 56 56. 000 
Predominant climate 6.21 1. 904 56 56. 000 
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结果 3-4-3 Tests of Equality of Group Means 


Wilks’ Lambda 


Population in thousands 0. 862 0. 020 
People living in cities (96) 0. 489 0. 000 
Gross domestic product / capita 0. 254 0. 000 


Predominant climate 0. 565 


Region or economic group Log Determinant 


OECD 38. 594 
Pacific/ Asia 43. 632 
Africa 34. 970 
Pooled within-groups 41. 667 


The ranks and natural logarithms of determinants printed are those of the group covariance matrices. 


结果 3-4-5 Test Results 


Box'sM 152.522 
F Approx. 11. 642 
dfi 12 
df2 12045. 329 
Sig. 0. 000 


Tests null hypothesis of equal population covariance matrices. 


结果 3-4-1 从 中 可 以 看 出 则 57 个 样本 国家 中 含有 一 个 缺失 值 , 这 个 在 之 前 聚 类 分 析 的 
时 候 就 已 经 确认 了 。 

结果 3-4-2 是 分 组 的 个 变量 均值 方差 估计 。 

结果 3-4-4 一 3-4-5 给 出 的 是 齐 方差 性 检验 。 

(2) 结果 3-5 :逐步 判别 的 过 程 和 结果 : 自 变 量 选取 


结果 3-5-1 Variables Entered/Removeda,b,c,d 


Min. D Squared 
Step Entered a Exact F 
Statistic Between Groups = 
Statistic dfl df2 Sig 

Gross sti d 

tiie a Asi and Africa | A738 0. 034 
capita 
Population in thousands | 1.590 |Pacific/Asia and Africa 6.775 0. 002 
Predominant climate 1.775 |Pacific/Asia and Africa 4.945 


At each step, the variable that maximizes the Mahalanobis distance between the two closest groups is entered. 


a. Maximum number of steps is 8. 
b. Minimum partial F to enter is 3. 84. 
c. Maximum partial F to remove is 2. 71. 


d. F level, tolerance, or VIN insufficient for further computation. 
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实验 三 
判别 分 析 


结果 3-5-2 Variables in the Analysis 


F to Min. D 
Step Tolerance K Between Groups 
Remove| Squared 


1 Gross domestic product / capita 1.000 77.972 

2 Gross domestic product / capita 0. 976 76.492 0. 005 OECD and Africa 
Population in thousands 0. 976 4. 155 0. 545 Pacific/ Asia and Africa 

3 Gross domestic product / capita 0.976 | 41.680 0. 978 Pacific/ Asia and Africa 
Population in thousands 0. 940 3.698 0. 928 Pacific/ Asia and Africa 
Predominant climate 0. 961 5.594 1. 590 Pacific/Asia and Africa 


结果 3-5-3 Variables Not in the Analysis 


Step Tolerance S sc lad aaa Between Groups 

0 Population in thousands 1. 000 1. 000 4.237 | 0.005 |OECD and Africa 
People living in cities (%) 1. 000 1.000 | 27.665 | 0.489 |Pacific/ Asia and Africa 
Gross domestic product / capita 1.000 1.000 | 77.972 | 0.545 |Pacific/Asia and Africa 
Predominant climate 1. 000 1.000 | 20.435 | 0.344 |Pacific/ Asia and Africa 

1 Population in thousands 0. 976 0. 976 4. 155 1.590 |Pacific/Asia and Africa 
People living in cities ( 4) 0. 545 0. 545 0.791 | 0.620 |Pacific/ Asia and Africa 
Predominant climate 0. 998 0. 998 6.113 | 0.928 |Pacific/Asia and Africa 

2 People living in cities (76) 0. 536 0. 536 1. 086 1.758 |Pacific/Asia and Africa 
Predominant climate 0. 961 0. 940 5. 594 1.775 |Pacific/Asia and Africa 

3 People living in cities (%) 0. 536 0. 536 1.056 1.938 |Pacific/Asia and Africa 


结果 3-5-4 Wilks’ Lambda 


Exact F 

df2 | Sig. 
53. 000 
104. 000 
102. 000 


Number of 


Variables Statistic 
77.972 
29.596 


23.141 


结果 3-5-1 给 出 了 进入 判别 函数 的 3 个 自 变 量 , 以 及 它们 进入 的 顺序 。 并 且 给 出 了 它们 
的 显著 性 .从 上 面 的 Sig. 值 可 以 看 出 加 入 这 三 个 变量 后 的 判别 函数 是 显著 的 。 

结果 3-5-2 给 出 了 每 一 步 中 选取 进入 判别 函数 的 自 变量 ,从 第 一 步 中 的 1 个 自 变量 到 第 
三 步 中 的 3 个 自 变量 。 

结果 3-5-3 给 出 了 每 一 步 中 ,没有 被 选中 的 自 变 量 . 从 初始 第 0 步 的 4 个 变量 到 第 3 步 的 
1 个 变量 。 

结果 3-5-4 对 每 一 步 得 到 的 判别 函数 都 进行 了 显著 性 检验 。 从 上 面 的 显著 性 水 平 Sig. 可 
以 看 出 ,三 个 判别 函数 都 是 显著 的 。 

(3) 结果 3-6 :逐步 判别 的 结果 :判别 函数 

这 里 得 到 的 结果 和 前 面 典型 判别 分 析 的 结果 有 完全 同样 的 解释 ,只 不 过 此 时 有 两 个 判 
别 函 数 ( 因 为 min{ 自 变量 个 数 , 分 组 数 一 1} = min{4,3 一 1) = 2), 
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结果 3-6-1 Eigenvalues 


Function Eigenvalue % of Variance | Cumulative % Canonical Correlation 
1 3. 842a 96.2 96.2 0. 891 
2 0. 152a 3.8 100.0 0. 363 


a. First 2 canonical discriminant functions were used in the analysis. 


结果 3-6-2 Wilks’ Lambda 


Test of Function(s) Wilks’ Lambda Chi-square Sig. 
1 through 2 0. 179 89. 355 0. 000 
2 0. 868 7.339 0.025 


结果 3-6-3 Standardized Canonical Discriminant Function Coefficients 


Function 


Population in thousands 
Gross domestic product / capita 


Predominant climate 


结果 3-6-4 Canonical Discriminant Function Coefficients 


Function 
1 2 
Population in thousands 0. 000 0. 000 
Gross domestic product / capita 0. 000 0. 000 
Predominant climate 0. 333 — 0. 013 


(Constant) 


Unstandardized coefficients 


结果 3-6-5 Structure Matrix 


Function 


2 
Gross domestic product / capita — 0. 090 
People living in cities (%)a — 0. 157 
Predominant climate 0. 177 


Population in thousandsa 
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions 
Variables ordered by absolute size of correlation within function. 

*. Largest absolute correlation between each variable and any discriminant function 


a. This variable not used in the analysis. 


结果 3-6-6 Functions at Group Centroids 


Function 
R 


egion or economic group 


2 
OECD — 0. 095 
Pacific/ Asia 0. 569 
Africa — 0. 374 


Unstandardized canonical discriminant functions evaluated at group means 
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实验 三 
判别 分 析 

结果 3-6-1 说 明 第 一 个 判别 函数 已 经 包含 了 96. 2% 的 信息 ,基本 上 通过 第 一 个 判别 函 
数 就 能 判定 。 当 第 一 个 判别 函数 不 能 完全 确定 时 ,可 以 用 第 二 个 判别 函数 来 确定 。 

结果 3-6-1 说 明 第 一 个 判别 函数 已 经 包含 了 96. 2% 的 信息 ,基本 上 通过 第 一 个 判别 函 
数 就 能 判定 。 当 第 一 个 判别 函数 不 能 完全 确定 时 ,可 以 用 第 二 个 判别 函数 来 确定 。 

结果 3-6-2 说 明 两 个 判别 函数 都 是 显著 的 。 

结果 3-6-3 给 出 了 两 个 判别 函数 关于 标准 化 以 后 的 判别 自 变量 的 系数 。 

结果 3-6-4 给 出 了 两 个 判别 函数 关于 未 标准 化 的 判别 自 变量 的 系数 。 

结果 3-6-5 Structure Matrix 中 给 出 的 是 判别 得 分 关于 判别 自 变量 的 相关 系数 , 它 表示 
相应 自 变量 的 判别 能 力 。 由 于 第 一 个 判别 函数 占 了 96.2 吧 的 信息 ,而 且 自 变量 gd. cap 在 第 
一 个 判别 函数 中 的 相关 系数 最 大 (0. 875) ,所 以 gdp_cap 对 判别 结果 的 贡献 最 大 。 

结果 3-6-6 给 出 了 各 个 组 关于 两 个 函数 的 判别 重心 .这 个 判别 重心 在 下 面 的 联合 分 布 图 
和 单独 分 布 图 中 可 以 直观 地 理解 。 

(4) 结果 3-7: 逐 步 判 别 的 结果 :图 形 化 显示 


332 21 
322 21 
3322 21 
4.0 + 332 + + + 21+ + + 
2 21 
3322 21 
332 21 
322 21 
3322 21 
2.0 + +332 + + 21 + + + 
322 21 
3322 21 
332 21 
2 21 
3322 21 
0.0 + + +332 + 21 + + + 
322 21 
3322 21 
332 21 
32221 
3321 
-2.0 t t + 十 t + 十 
-4.0 t t t t t t t 
-6.0 * 十 t 十 十 t + 


-8.0 -6.0 -4.0 -2.0 0.0 2.0 4.0 6.0 8.0 
Canonical Discriminant Function | 


结果 3-7-1 ”领域 图 


由 于 领域 图 太 大 ,所 以 只 是 截取 了 其 中 一 部 分 ,具体 地 可 以 看 自己 SPSS 程序 的 结果 输 
出 窗口 。 
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领域 图 的 横 坐 标 是 第 一 个 判别 函数 的 值 , 纵 坐标 是 第 二 个 判别 函数 的 值 ，Y” 字 型 的 边 
界 构成 了 不 同 分 组 的 界线 。 即 当 两 个 判别 函数 值 构成 的 坐标 落 在 上 面 领 域 图 的 左下 角 ,那么 
这 个 样本 被 分 在 第 三 组 ; 当 两 个 判别 函数 值 构成 的 坐标 落 在 上 面 领域 图 的 右 下 角 ,那么 这 个 
样本 被 分 在 第 1 组 ; 当 两 个 判别 函数 值 构成 的 坐标 落 在 上 面 领 域 图 的 上 面部 分 ,那么 这 个 样 
本 被 分 在 第 二 组 。 


Canonical Discriminant Functions 
Region oreconomic group=OECD 


Group Centroid 
5.0 il Group Centroid 
OOECD 
2.5 
N 
[21 o 
ES 
300 e cis e 
= 
E 
-2.5 
-5.0 


-5.0 -2.5 00 2.5 5.0 
Function 1 


结果 3-7-2 ”单独 分 布 图 


上 图 举例 地 给 出 了 第 一 组 的 单独 分 布 图 ,第 二 ,三 组 的 单独 分 布 图 见 SPSS 程序 的 结果 
输出 窗口 。 图 中 给 出 了 所 有 用 于 分 析 的 、 并 且 被 判 在 第 一 组 的 样本 在 (Functionl， 
Function2) 坐标 系 中 的 分 布 。 并 且 也 给 出 了 这 一 组 的 重心 。 


Canonical Discriminant Functions 


Region or economic 
group 

O OECD . 

© Pacific/Asia 
Africa . 

iB Group Centroid 

Pacific/Asia o 

o ECD 

"UN qo o 
Africa 


i Function 2 
N o 
un c 


| 
wn 
© 


-5.0 -2.5 00 25 50 
Function I 


结果 3-3 ”联合 分 布 图 


联合 分 布 图 只 是 将 三 组 单独 分 布 图 放 在 一 张 图 中 ,从 中 可 以 比较 不 同 组 的 重心 。 
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实验 四 主 成 分 分 析 


4.1 实验 背景 


由 于 变量 间 存 在 一 定 的 相关 关系 ,因此 有 可 能 用 较 少 数 的 综合 指标 分 别 综 合 存 在 于 各 
变量 中 的 各 类 信息 。 本 实验 以 Midwestern 银行 在 1969—1971 年 之 间 雇 员 情 况 的 数据 ,选取 
其 中 的 五 个 变量 作 主 成 分 分 析 。SPSS 默认 保留 特征 根 大 于 1 的 主 成 分 ,在 本 例 中 将 看 到 保 
留 3 个 主 成 分 为 宜 , 这 3 个 主 成 分 集中 了 原始 5 个 变量 中 90. 66% 的 信息 。 

需 注 意 的 是 SPSS 在 调用 Factor Analyze 过 程 进行 分 析 时 ,SPSS 会 自动 对 原始 数据 进 
行 标 准 化 处 理 , 所 以 在 得 到 计算 结果 后 的 变量 都 是 指 经 过 标准 化 处 理 后 的 变量 ,但 SPSS 并 
不 直接 给 出 标准 化 后 的 数据 ,如 需要 得 到 标准 化 数据 , 则 需 调 用 Descriptives 过 程 进行 计算 。 


4.2. 实验 步骤 和 结果 分 析 


(一 ) 实验 数据 

例 4.1 SPSS 自 带 的 数据 集 Employee data. sav 为 Midwestern 4i fT YE 1969—1971 年 之 
间 雇 员 情 况 的 数据 , 共 包 括 474 条 观测 及 如 下 10 个 变量 :Id( 观 测 号 )、Gender( 性 别 )、 
Bdate( 出 生日 期 )、Educ( 受 教育 程度 (年 数 ))、Jobcat( 工 作 种 类 )、Salary( 目 前 年 新 )、 
Salbegin Jf 4f Z RS sf B5 4E. S55) .Jobtime C 52 Ji Mt [8] (月))、Prevexp( 受 雇 以 前 的 工作 时 间 
(月 ))、Minority( 是 否 少数 民族 ) 。 下 面 我 们 用 主 成 分 分 析 方 法 处 理 该 数据 ,以 期 用 少数 变量 
来 描述 该 地 区 居民 的 雇佣 情况 。 

(=) 实验 步骤 

1. 打开 数据 

找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 Employee data. sav, 双 击 
打开 ,在 打开 成 功 后 将 数据 文件 另存 为 “ 主 成 分 分 析 . sav” 

2. 主 成 分 分 析 

按 如 下 方式 选择 :Analyze — Data Reduction — Factor Analysis: 
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将 “educ”、“salary”、“salbegin”、“jobtime” 和 “prevexp” 这 五 个 变量 选 人 Variable: 


Value 


在 Descriptives 选项 中 选择 Correlation Matrix F MAY “Coefficients”, Ai Continue: 


5 Factor Analysis: 


r Correlation Matrix 


Ripe] ^ Utere 
[C] Significance levels. [ ] Reproduced 
CI Determinant 口 Anti-image 
| 中 
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实验 四 
主 成 分 分 析 


在 Extraction 选项 中 ,选择 Display 选项 下 面 的 “Scree plot", 点 击 Continue, 然后 点 
击 OK : 


(=) 结果 分 析 
(1) 结果 4-1: 变 量 相关 性 


结果 4-1 Correlation Matrix 


Educational | Current |Beginning| Months | Previous Experience 
Level (years)| Salary Salary |since Hire (months) 
Correlation Educational Level (years) 1, 000 0. 661 0. 633 0. 047 — 0. 252 
Current Salary 0. 661 1. 000 0. 880 0. 084 — 0.097 
Beginning Salary 0. 633 0. 880 1.000 | — 0.020 0. 045 
Months since Hire 0. 047 0. 084 — 0. 020 1. 000 0. 003 
— maÓ' 
dione — 0.282 |— 0.097 | 0.045 | 0.003 1. 000 
Experience (months) 


上 表 给 出 了 五 个 变量 之 间 的 相关 系数 ,从 矩阵 中 可 以 看 出 还 是 存在 比较 大 的 相关 性 
的 ,特别 是 第 一 、 第 二 变量 之 间 , 第 二 ,第 三 变量 之 间 。 所 以 对 这 五 个 变量 进行 主 成 分 分 析 是 
有 必要 的 。 

(2) 结果 4-2: 主 成 分 分 析 结 果 


结果 4-2-1 Communalities 


Initial Extraction 
Educational Level (years) 1. 000 0. 754 
Current Salary 1. 000 0. 896 
Beginning Salary 1. 000 0. 916 
Months since Hire 1.000 0. 999 
Previous Experience (months) 1. 000 0. 968 


Extraction Method; Principal Component Analysis. 


上 表 给 出 了 变量 共同 度 , 即 给 出 了 每 个 变量 的 原始 信息 在 新 的 主 成 分 中 得 以 体现 的 比 
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例 , 例 如 第 一 个 变量 在 新 成 分 中 只 保留 了 75.4% 的 信息 ,第 二 个 变量 的 信息 保留 了 89.6%， 
而 且 第 三 个 变量 保留 的 信息 相对 后 面 两 个 变量 的 信息 也 较 少 。 这 个 和 结果 4-1 中 前 三 个 变 
量 之 间 存 在 相关 性 的 判断 是 一 致 的 。 


结果 4-2-2 Total Variance Explained 


Gomont Initial ee Extraction Sums of aes mal 
Total % of Variance| Cumulative % Total % of Variance| Cumulative 94 
1 2.477 49.541 49.541 2.477 49. 541 49. 541 
2 1.052 21. 046 70.587 1. 052 21.046 70. 587 
3 1. 003 20. 070 90. 656 1.003 20. 070 90. 656 
4 . 365 7,299 97.955 
5 . 102 2. 045 100. 000 
Extraction Method; Principal Component Analysis. 


上 表 给 出 了 每 个 主 成 分 所 包含 的 信息 ,以 及 选择 了 若干 主 成 分 以 后 的 累计 信息 。 左 列 给 
出 了 从 1 个 主 成 分 到 5 个 主 成 分 的 边际 信息 和 累计 信息 (百分比 ) , 右 列 给 出 了 抽出 的 主 成 
分 以 及 相关 的 信息 。 之 所 以 抽出 3 个 主 成 分 ,是 因为 我 们 在 Extraction 选项 中 默认 了 Extract 
“Eigenvalues over 1”, 所 以 只 抽出 了 信息 (特征 值 ) 大 于 1 的 主 成 分 .从 最 后 一 列 可 以 看 出 ， 
我 们 抽出 的 主 成 分 保留 了 原始 信息 的 90. 656%. 


Scree Plot 


Eigenvalue 


Component Number 


结果 4-2-3 RG 


上 面 的 碎 石 图 给 出 了 特征 值 ( 主 成 分 信息 含量 ) 的 分 布 ,由 于 第 3 个 主 成 分 的 特征 值 还 
是 大 于 1 的 ,而 第 4 个 特征 值 急 剧 下 降 ,并 且 远 小 于 1, 所 以 只 保留 前 面 3 个 主 成 分 。 
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结果 4-2-4 Component Matrixa 


Component 
1 2 3 
Educational Level (years) 0. 846 — 0. 194 — 0. 014 
Current Salary 0. 940 0. 104 0. 029 
Beginning Salary 0. 917 0. 264 — 0,077 
Months since Hire 0. 068 — 0.052 0. 996 
Previous Experience (months) — 0. 178 0. 965 0. 069 


Extraction Method: Principal Component Analysis. 


a. 3 components extracted. 

之 前 的 判断 说 明 选 择 了 3 个 主 成 分 .上 表 给 出 了 这 3 个 主 成 分 通过 原先 5 个 变量 (已 标 
准 化 ) 线性 组 成 的 系数 。Component Matrix” 是 指 初 始 因子 载荷 矩阵 ,每 一 个 载荷 量 表示 主 
成 分 与 对 应 变量 的 相关 系数 。 

结果 4-2-4 中 的 数据 除 以 主 成 分 相对 应 的 特征 值 开平 方 根 便 得 到 两 个 主 成 分 中 每 个 指 
标 所 对 应 的 系数 ,将 第 一 列 ,第 二 列 , 第 三 列 的 数据 分 别 除 以 : 

dr = V2.477 ,VAs = V1.052 ,VX = 4/1.003 可 得 系数 矩阵 : 

结果 4-2-5 ”系数 矩阵 


Component 
1 2 3 
Educational Level (years) 0. 537536 — 0. 18914 — 0. 01398 
Current Salary 0. 597262 0. 101397 0. 028957 
Beginning Salary 0. 582648 0. 257393 — 0.07688 
Months since Hire 0. 043206 — 0. 0507 0. 994509 
Previous Experience (months) —Q, 1131 0. 940848 0. 068897 


Extraction Method: Principal Component Analysis. 


a. 3 components extracted. 


根据 上 表 , 可 得 到 三 个 主 成 分 : 
F, = 0.53752, +0. 5972x: +0. 5826x; + 0. 04322, 一 0.1131zs 
F, =— 0. 1891x, + 0.10132, + 0. 257323 — 0. 05072, +0. 94082; 
F, =— 0.013982, + 0. 02895x: — 0. 076882, — 0. 99452, + 0. 0688, 
从 系数 的 大 小 可 以 看 出 ,第 一 个 主 成 分 对 前 三 个 变量 的 系数 较 大 ,所 以 可 以 把 第 一 个 主 
成 分 称 为 综合 成 分 ;第 二 个 主 成 分 的 几乎 所 有 质量 都 集中 在 第 五 个 变量 上 ,所 以 第 二 个 主 成 
分 可 以 称 为 先前 工作 经 验 成 分 ;第 三 个 主 成 分 的 几乎 所 有 质量 都 集中 在 第 四 个 变量 上 ,所 以 
第 三 个 主 成 分 可 以 称 为 工龄 成 分 。 
(四 ) 另 一 个 例子 的 主 成 分 分 析 
例 4.2 本 案例 为 例 1. 1 中 的 数据 ,具体 进行 主 成 分 分 析 的 步 又 和 结论 分 析 同 例 4. 1， 
所 以 只 列 出 结果 。 
(1) 结果 4-3: 变 量 相 关 性 
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结果 4-3 Correlation Matrix 


益 率 ”| 报酬 率 | 债 率 | 周转 率 | 周转 率 | 息 倍 数 | 长 率 | 累 率 

Correlation ” 净 资 产 收益 率 1.000 |0.891 | 0.054 | 0.688 | 0.721 |0.518 | 0.651 | 0.485 
总 资产 报酬 率 0.891 | 1.000 }- 0.158) 0.572 | 0.708 | 0.665 | 0.528 | 0. 405 

资产 负债 率 0.054 上 0.158| 1. 000 | 0.143 | — 0.043 上 0.407| 0.161 |— 0. 281 

总 资产 周转 率 0.688 | 0.572 | 0.143 | 1.000 | 0.782 | 0.142 | 0.547 | 0. 342 

流动 资产 周转 率 0.721 | 0.708 + 0.043] 0. 782 | 1.000 | 0.272 | 0.452 | 0.389 

已 获 利 息 倍 数 0.518 | 0.665 } 0.407] 0. 142 | 0.272 | 1.000 | 0.228 | 0.458 

销售 增长 率 0.651 | 0.528 | 0.161 | 0.547 | 0.452 | 0.228 | 1. 000 | 0. 402 

资本 积累 率 0.485 | 0.405 } 0. 281] 0.342 | 0.389 | 0.458 | 0.402 | 1.000 


(2) 结果 4-4: 主 成 分 分 析 结 果 


结果 4-4-1 Communalities 


Initial Extraction 
净 资 产 收 益 率 (%) 1. 000 0. 883 
总 资产 报酬 率 (%) 1. 000 0. 830 
资产 负债 率 (%) 1. 000 0. 735 
总 资产 周转 率 1. 000 0. 764 
流动 资产 周转 率 (%) 1. 000 0.715 
已 获 利息 倍数 1. 000 0.749 
销售 增长 率 (%) 1. 000 0. 585 
资本 积累 率 (%) 1. 000 0. 501 


Extraction Method: Principal Component Analysis. 


结果 4-4-2 Total Variance Explained 


vk Initial —— Extraction Sums of Squared Loadings 
Total % of Variance| Cumulative % Total % of Variance| Cumulative % 
1 4. 202 52.529 52. 529 4. 202 52. 529 52.529 
2 1. 560 19. 498 72.027 1. 560 19. 498 72.027 
3 0. 703 8. 793 80. 820 
4 0. 683 8. 540 89. 361 
5 0. 416 5. 201 94. 561 
6 0. 219 2. 737 97.298 
7 0. 158 1.978 99. 276 
8 0. 058 0. 724 100. 000 
Extraction Method; Principal Component Analysis. 
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主 成 分 分 析 
Scree Plot 
2.5 
2.0 
S15 
如 
> 
{=| 
5b 
m 1.0 
0.5 
0.0 
2 3 4 5 6 
Component Number 
结果 4-4-3 ” 碎 石 图 
结果 4-4-4 Component Matrixa 
Component 
1 2 
净 资 产 收 益 率 (%) 0. 934 0. 105 
总 资产 报酬 率 (%) 0. 903 一 0.124 
资产 负债 率 (%) 一 0. 100 0. 851 
总 资产 周转 率 0.771 0. 411 
流动 资产 周转 率 (%) 0. 825 0. 188 
已 获 利 息 倍 数 0.594 — 0. 630 
销售 增长 率 (%) 0. 702 0. 302 
资本 积累 率 (%) 0. 620 — 0. 342 


Extraction Method; Principal Component Analysis. 


a. 2 components extracted. 
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实验 五 = 因子 分 析 


5.1 KREE 


因子 分 析 是 研究 如 何以 最 少 的 信息 丢失 将 众多 原 有 变量 浓缩 成 少数 几 个 因子 ,如 何 使 
因子 具有 一 定 的 命名 解释 性 的 多 元 统计 分 析 方 法 .因子 分 析 具 体 的 步骤 有 : 

(一 ) 判断 观测 数据 是 否 适 合作 因子 分 析 。 

原始 变量 个 数 较 少 ,可 对 相关 和 矩阵 进行 检验 ,如 果 相 关 和 矩阵 中 的 大 部 分 相关 系数 小 于 
0.3, 则 不 适合 做 因子 分 析 ; 当 原始 变量 个 数 较 多 时 ,经 常 采用 的 方法 为 巴特 利 特 球 体检 验 和 
KMO。Bartlett 球体 检验 的 目的 是 检验 相关 和 矩阵 是 否 是 单位 和 矩阵 :KMO 是 
Kaiser-Meyer-Olkin 的 取样 适当 性 量 数 。 

(二 ) 抽取 共同 因子 ,确定 因子 的 数目 和 求 因子 解 的 方法 。 

本 实验 采用 “ 主 成 分 分 析 法 "(principal components analysis) 为 决定 因素 抽取 的 方法 。 
因子 数目 借助 两 个 准则 来 确定 :一 是 特征 值 (eigenvalue) 准则 ,二 是 碎 石 图 检验 (scree test) 
准则 。 

(三 ) 因子 旋转 :使 因子 更 具有 命名 可 解释 性 。 

通常 最 初 因素 抽取 后 , 对 因素 无 法 作 有 效 的 解释 .这 时 往往 需要 进行 因子 旋转 
(rotation) , 通过 坐标 变换 使 因子 解 的 意义 更 容易 解释 。 这 里 我 们 将 选择 最 大 变异 
法 (Varimax) 。 

(四 ) 计算 因子 得 分 

本 步骤 正 是 通过 各 种 方法 计算 各 样本 在 各 因子 上 的 得 分 ,为 进一步 的 分 析 黄 定 基础 。 

本 实验 用 例 5. 1 和 例 5. 2 两 个 例子 说 明 利 用 SPSS 的 Factor Analysis 模块 进行 因子 分 
析 的 方法 。 例 5.1 是 SPSS 自 带 的 Employee data. sav 数据 集 ; 例 5.2 为 例 1.1 中 的 数据 。 


5.2 SEMA TR AR AR ot BT 


(一 ) 实验 数据 

例 5.1 SPSS 自 带 的 数据 集 Employee data. sav 7j Midwestern 银行 在 1969 一 1971 年 之 
间 雇 员 情 况 的 数据 , 共 包 括 474 条 观测 及 如 下 10 个 变量 :Id( 观 测 号 )、Gender( 性 别 )、 
Bdate( 出 生日 期 )、Educ( 受 教育 程度 (年数))、Jobcat( 工 作 种 类 )、Salary( 目 前 年 薪 )、 
Salbegin( 开 始 受聘 时 的 年 薪 ) Jobtime( 受 雇 时 间 ( 月 ))、Prevexp( 受 雇 以 前 的 工作 时 间 
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(月 ))、Minority( 是 否 少数 民族 ) 。 下 面 我 们 用 因子 分 析 方 法 处 理 该 数据 。 

(=) 实验 步骤 

1. 打开 数据 : 

找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 Employee data. sav, Mit 
打开 ,在 打开 成 功 后 将 数据 文件 另存 为 “因子 分 析 . sav”. 

2. 因子 分 析 

按 如 下 方式 选择 :Analyze — Data Reduction — Factor Analysis: 


在 Descriptives 选项 中 ,选择 Statistics 下 面 的 “Univariate descriptives”( 单 变量 描述 性 
统计 量 ) :显示 每 一 题 项 的 平均 数 .标准 差 。Initial solution”( 未 转轴 之 统计 量 ) :显示 因素 分 
析 未 转轴 前 之 共同 性 (communality) .特征 值 Ceigenvalues)、 变 异 数 百分比 及 累积 百分比 ; 选 
择 Correlation Matrix 下 面 的 “Coefficients” 和 “KMO and Bartlett’s test of sphericity”. 点 
击 Continue: 
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在 Extraction 选项 中 ,选择 Display 选项 下 面 的 “Scree plot”, 点 击 Continue。 然 后 点 
击 OK: 


a Factor Analysis: Extraction 
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ki mm 
因子 分 析 
在 Scores 选项 中 ,Save as variable 框 勾 选 时 可 将 新 建立 的 因素 分 数 存储 至 数据 文件 中 ， 
并 产生 新 的 变量 名 称 ( 内 定 为 fact_1、fact_ 2 等 ), 在 "Method” 框 中 表示 计算 因素 分 数 的 方法 
有 三 种 : 
(1)Regression: 使 用 回归 法 ; 
(2)Bartlett: 使 用 Bartlette 法 ; 
(3)Anderson-Robin: 使 用 Anderson-Robin 法 ; 
Display factor score coefficient matrix”( 显 示 因 素 分 数 系数 矩阵) 选项 勾 选 时 可 显示 因 
素 分 数 系数 矩阵 。 本 实验 选择 如 下 图 ,点 击 Continue, Ai OK: 


um Factor Analysis: Factor... X 


(©) Regression 
C) Bartlett 
©) Anderson-Rubin 


(=) 结果 分 析 
(1) 结果 5-1: 变 量 相 关 性 估计 和 检验 


结果 5-1-1 Descriptive Statistics 


Mean Std. Deviation Analysis N 
Educational Level (years) 13. 49 2. 885 474 
Current Salary $ 34,419.57 $17,075. 661 474 
Beginning Salary $17,016. 09 $ 7,870. 638 474 
Months since Hire 81.11 10. 061 474 


474 


104. 586 


Previous Experience (months) 95. 86 


结果 5-1-2 Correlation Matrix 


Educational Current |Beginning| Months | Previous Experience 
Level (years) Salary Salary | since Hire (months) 

Educational 

Correlation < ce Ona 1. 000 0.661 | 0.633 | 0.047 — 0. 252 
Level Cyears) 
Current Salary 0. 661 1. 000 0. 880 0. 084 — 0. 097 
Beginning Salary 0.633 0. 880 1. 000 — 0. 020 0. 045 
Months since Hire 0. 047 0.084 | — 0.020 1. 000 0. 003 
Previons 一 0.252 |—0.097| 0.045 | 0.003 1. 000 
Experience (months) 
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结果 5-1-3 KMO and Bartlett’s Test 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 0. 606 


Bartlett’s Test of Sphericity Approx. Chi-Square 1094. 808 
df 10 
Sig. 0. 000 


结果 5-1-1 给 出 了 每 个 变量 的 均值 方法 估计 。 

结果 5-1-2 给 出 了 五 个 变量 之 间 的 相关 系数 ,如 果 相 关 和 矩阵 中 的 大 部 分 相关 系数 小 于 
0. 3, 则 不 适合 作 因子 分 析 。 从 本 例 的 矩阵 中 可 以 看 出 还 是 存在 比较 大 的 相关 性 的 ,特别 是 第 
一 、 第 二 变量 之 间 ,第 二 ,第 三 变量 之 间 。 所 以 对 这 五 个 变量 进行 因子 分 析 是 有 必要 的 。 

结果 5-1-3 分 析 :KMO 是 Kaiser-Meyer-Olkin 的 取样 适当 性 量 数 .KMO 测度 的 值 越 高 
(接近 1. 0 时 ) ,表明 变量 间 的 共同 因子 越 多 ,研究 数据 适合 用 因子 分 析 。 通 常 按 以 下 标准 解 
释 该 指标 值 的 大 小 :KMO 值 达到 0.9 以 上 为 非常 好 ,0.8 ~ 0.9 为 好 ,0.7 ~ 0.8 为 一 般 ， 
0.6 — 0.7 为 差 ,0.5 ~ 0.6 HŽ. WE KMO 测度 的 值 低 于 0.5 时 ,表明 样本 偏 小 ,需要 扩 
大 样本 ,此 处 的 KMO 值 为 0. 606 ,表示 勉强 适合 进行 因素 分 析 。 

Bartlett 球体 检验 的 目的 是 检验 相关 矩阵 是 否 是 单位 矩阵 (identity matrix), 如 果 是 单 
位 矩阵 , 则 认为 因子 模型 不 合适 。 本 例 中 ,Bartlett 球形 检验 的 x* 值 为 1094. 808( 自 由 度 为 
10),p 值 为 0.000 < 0.01, 达 到 了 显著 性 水 平 , 说 明 拒 绝 零 假 设 而 接受 备 择 假 设 , 即 相关 乞 
阵 不 是 单位 矩阵 ,适合 进行 因素 分 析 。 

(2) 结果 5-2: 主 成 分 分 析 部 分 的 结果 s 


结果 5-2-1 Communalities 


Initial Extraction 
Educational Level (years) 1.000 0. 754 
Current Salary 1. 000 0. 896 
Beginning Salary 1. 000 0. 916 
Months since Hire 1. 000 0. 999 
Previous Experience ( months) 1.000 0. 968 


Extraction Method; Principal Component Analysis. 


结果 5-2-2 Total Variance Explained 


Initial Eigenvalues Extraction Sums of Squared Loadings 
Component A x T 2 = 7 
Total % of Variance Cumulative % Total % of Variance Cumulative % 

1 2.477 49. 541 49. 541 2.477 49. 541 49. 541 

2 1. 052 21.046 70. 587 1.052 21.046 70.587 

3 1. 003 20.070 90. 656 1. 003 20. 070 90. 656 

4 0. 365 7.299 97. 955 

5 0. 102 2. 045 100. 000 
Se Wi icis I es me M sesh hoch clue RR Erde 


Extraction Method; Principal Component Analysis. 
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实验 五 


因子 分 析 
Scree Plot 
2.5 
2.0 
31.5 
os 
> 
z 
So 
ig 1.0 
0.5 
0.0 
Component Number 
结果 5-2-4 RA 
结果 5-2-4 Component Matrixa 
Component 
1 2 3 
Educational Level (years) 0. 846 — 0.194 — 0. 014 
Current Salary 0. 940 0. 104 0. 029 
Beginning Salary 0. 917 0. 264 —0.:077 
Months since Hire 0. 068 — 0. 052 0. 996 
Previous Experience ( months) =, 178 0. 965 0. 069 


Extraction Method: Principal Component Analysis. 


a. 3 components extracted. 


结果 5-2-1 给 出 了 变量 共同 度 . 表 中 显示 各 因子 解释 掉 方 差 的 比例 ,也 称 变量 的 共同 度 
(Communality) 。 共 同 度 从 0 到 1,0 为 因子 不 解释 任何 方差 ,1 为 所 有 方差 均 被 因子 解释 掉 。 
一 个 因子 越 大 地 解释 掉 变 量 的 方差 ,说 明 因 子 包 含 原 有 变量 信息 的 量 越 多 。 数 值 小 就 说 明 该 
变量 不 适合 作 因 子 ,可 在 分 析 中 将 其 排除 在 外 .本 实验 除 Educational Level 的 共同 度 小 于 
0. 8 外 (接近 ) ,其 余 均 大 于 0. 8, 故 五 个 变量 适合 因子 分 析 。 

结果 5-2-2 上 表 给 出 了 每 个 主 成 分 所 包含 的 信息 。 上 表 中 第 一 列 为 特征 值 ( 主 成 分 的 方 
差 ) ,第 二 列 为 各 个 主 成 分 的 贡献 率 , 第 三 列 为 累积 贡献 率 , 由 上 表 看 出 前 3 个 主 成 分 的 累计 
贡献 率 就 达到 了 90.656% > 85% ,所 以 选取 主 成 分 个 数 为 3。 

结果 5-2-3 上 面 的 碎 石 图 给 出 了 特征 值 ( 主 成 分 信息 含量 ) 的 分 布 。 由 上 图 看 出 ,成 分 数 
为 3 时 ,特征 值 的 变化 曲线 趋 于 平缓 ,所 以 由 碎 石 图 也 可 大 致 确定 出 主 成 分 个 数 为 3。 与 按 累 
计 贡 献 率 确定 的 主 成 分 个 数 是 一 致 的 。 

结果 5-2-4 是 因子 载荷 矩阵 ,是 用 标准 化 后 的 主 成 分 近似 表示 标准 化 原始 变量 的 系数 矩 
阵 ,用 Fl1,F2,F3 表示 各 公 因 子 , 以 Beginning Salary 为 例 , 即 有 : 

Beginning Salary ~ 0. 917F1 十 0.264F2 — 0. 077F3 

这 3 个 主 成 分 质量 的 侧重 点 已 经 比较 明显 了 。 所 以 其 实 对 于 这 个 例子 来 说 已 经 没有 必 
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要 再 进行 因子 旋转 ,所 以 这 里 体现 不 出 因子 分 析 的 目的 ,后 面 例 5. 2 的 那个 案例 分 析 将 充分 
体现 因子 旋转 的 作用 。 
(3) 结果 5-3 :因子 旋转 的 结果 : 


结果 5-3-1 Rotated Component Matrixa 


Component 
1 2 3 
Educational Level (years) 0. 812 — 0. 306 | 0. 036 
Current Salary 0.944 — 0.021 0. 066 
Beginning Salary 0. 946 0. 133 — 0,050 
Months since Hire 0. 023 0. 003 0. 999 
Previous Experience (months) — 0. 047 0. 983 0. 004 


Extraction Method; Principal Component Analysis. 
Rotation Method: Varimax with Kaiser Normalization. 


a. Rotation converged in 4 iterations. 


结果 5-3-2 Component Transformation Matrix 


Component 


Extraction Method; Principal Component Analysis. 


Rotation Method; Varimax with Kaiser Normalization. 


结果 5-3-3 Component Score Coefficient Matrix 


Component 
1 2 3 
Educational Level (years) 0. 314 — 0. 229 0. 013 
Current Salary 0. 388 0. 049 0. 040 
Beginning Salary 0. 403 0. 193 — 0.074 
Months since Hire — 0. 017 0.011 0. 994 
Previous Experience ( months) 0. 051 0. 921 0. 012 


Extraction Method; Principal Component Analysis. 


Rotation Method: Varimax with Kaiser Normalization. 


结果 5-3-4 Component Score Covariance Matrix 


Component 1 2 3 


Extraction Method: Principal Component Analysis. 


Rotation Method; Varimax with Kaiser Normalization. 


结果 5-3-1 给 出 了 经 过 因子 旋转 以 后 的 主 成 分 系数 。 它 所 体现 的 在 几 个 变量 上 质量 的 侧 
重 与 旋转 之 前 没有 本 质 上 区 别 , 事 实 上 区 别 不 是 很 大 。 
结果 5-3-2 给 出 了 用 于 因子 旋转 的 变换 矩阵。 从 中 可 以 发 现 这 个 矩阵 和 单位 矩阵 其 实 相 
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Lei Am 


因子 分 析 


差 不 是 很 大 ,大 部 分 质量 集中 在 对 角 线 上 ,其 他 地 方 的 值 都 不 是 很 大 .这 也 印证 了 上 面 所 说 
的 本 例 没 有 太 大 必要 进行 因子 旋转 。 


结果 5-3-3 给 出 了 公 因 子 用 5 个 原始 自 变 量 表示 的 线性 估计 。 


结果 5-3-4 给 出 了 公 因 子 个 协 方差 矩阵 。 
(四 ) 另 一 个 例子 的 因子 分 析 
例 5.2 本 案例 为 例 1. 1 中 的 数据 ,具体 进行 因子 分 析 的 步骤 同 例 5.1, 所 以 只 列 出 结 


果 并 进行 结果 分 析 。 


从 上 一 次 实验 的 第 二 个 主 成 分 分 析 的 结论 知道 ,如 果 只 抽出 特征 值 大 于 1 的 主 成 分 , 那 
么 只 能 抽出 2 个 主 成 分 ,而 且 抽出 的 总 的 信息 只 有 72.027% ,为 了 能 够 从 中 抽出 更 多 的 信 
EB ,不 妨 选择 抽出 4 个 主 成 分 .具体 在 操作 上 的 变化 为 

Æ Extraction 选项 中 ,选择 Extract 选项 下 面 的 “Number of factor” 为 4, 点 击 Continue, 


然后 点 击 OK: 


pa Factor Analysis: Extraction 


(1) 结果 5-4: 变 量 相 关 性 估计 和 检验 


结果 5-4-1 Descriptive Statistics 
Mean Std. Deviation Analysis N 
净 资 产 收 益 率 (%) 9. 6872 6. 70821 35 
总 资产 报酬 率 (%) 7. 2406 4. 36864 35 
资产 负债 率 (%) 47. 1163 15. 19990 35 
总 资产 周转 率 0. 4266 0. 45635 35 
流动 资产 周转 率 (%) 0.7717 0. 68101 35 
已 获 利息 倍数 8. 3086 8. 42327 35 
销售 增长 率 (%) 17. 9963 38. 03200 35 
资本 积累 率 (%) 14. 6774 21. 86696 35 
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结果 5-4-2 Correlation Matrix 


总 资产 流动 资产 | 已 获 利 
Correlation ” 净 资 产 收益 率 1.000 | 0.891 | 0.054 | 0.688 | 0.721 | 0.518 | 0.651 | 0.485 
总 资产 报酬 率 0.891 | 1.000 } 0.158} 0.572 | 0.708 | 0.665 | 0.528 | 0. 405 
资产 负债 率 0.054 [| 0,158} 1.000 | 0.143 | — 0. 043 0. 407| 0. 161 |} 0. 281 
总 资产 周转 率 0.688 | 0.572 | 0.143 | 1. 000 | 0.782 | 0.142 | 0.547 | 0. 342 
流动 资产 周转 率 0.721 | 0.708 | 0.043] 0.782 | 1.000 | 0.272 | 0.452 | 0.389 
已 获 利 息 倍 数 0.518 | 0.665 — 0. 407| 0.142 | 0.272 | 1.000 | 0.228 | 0.458 
销售 增长 率 0.651 | 0.528 | 0.161 0.547 | 0.452 | 0.228 | 1. 000 | 0. 402 
资本 积累 率 0.485 | 0.405 —0.281| 0.342 | 0.389 | 0.458 | 0.402 | 1.000 


结果 5-4-3 KMO and Bartlett's Test 


0. 737 
181. 204 
28 
0. 000 


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. 


Bartlett's Test of Sphericity Approx. Chi — Square 
df 


Sig. 


结果 5-4-1 给 出 了 各 个 自 变量 的 均值 方差 估计 。 

结果 5-4-2 给 出 了 自 变量 之 间 的 相关 性 估计 。 从 数据 上 看 ,这 些 变量 之 间 存 在 则 非常 严 
重 的 多 重 共 线 性 性 。 

结果 5-4-2 检验 的 显著 性 水 平 Sig. 表明 拒绝 变量 之 间 的 独立 性 假设 , 即 他 们 之 间 存 在 相 

(2) 结果 5-5: 主 成 分 分 析 部 分 的 结果 : 


结果 5-5-1 Communalities 


Initial Extraction 
净 资 产 收 益 率 (%) 1. 000 0. 919 
总 资产 报酬 率 (%) 1. 000 0. 943 
资产 负债 率 ( 听 ) 1. 000 0. 878 
总 资产 周转 率 1. 000 0. 881 
流动 资产 周转 率 (%) 1. 000 0. 911 
已 获 利 息 倍 数 1. 000 0. 908 
销售 增长 率 (%) 1. 000 0.799 
资本 积累 率 (%) 1. 000 0. 910 


Extraction Method: Principal Component Analysis. 


结果 5-5-2 Total Variance Explained 


Initial Eigenval Extraction Sums of Rotation Sums of 
la 1 values * H 
S ge i Squared Loadings Squared Loadings 
Component : s 
Total % of Cumulative Total % of Cumulative Total % of Cumulative 
us Variance % z Variance % s Variance % 
1 4. 202 52. 529 52. 529 ë 52. 529 52. 529 : 32. 278 32.278 
2 1.560 19. 498 72.027 i 19, 498 72.027 š 24. 375 56. 653 
3 0. 703 8. 793 80. 820 " 8. 793 80. 820 A 16. 891 73.545 
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BT AH 
续 表 
initil Eigenvalies Extraction Sums of Rotation Sums of 
Squared Loadings Squared Loadings 
Component 
Total % of Cumulative Total % of Cumulative Total % of Cumulative 
Variance % Variance % Variance % 
4 0. 683 8. 540 89. 361 0. 683 8. 540 89. 361 1. 265 15. 816 89. 361 
5 0.416 5. 201 94. 561 
6 0. 219 2.737 97. 298 
7 0. 158 I. 978 99. 276 
8 0. 058 0. 724 100. 000 


Extraction Method: Principal Component Analysis. 


Scree Plot 


Eigenvalue 


1 2 3 4 5 6 7 8 
Component Number 


结果 5-5-3 Wa 


结果 5-5-4 Component Matrixa 


Component 


1 2 3 4 

净 资 产 收 益 率 (%) 0. 934 0. 105 0. 001 0. 189 
总 资产 报酬 率 (%) 0. 903 一 0.124 一 0. 175 0. 287 
资产 负债 率 (%) 一 0. 100 0. 851 0. 223 0. 306 
总 资产 周转 率 0.771 0.411 — 0. 209 — 0. 270 
流动 资产 周转 率 (%) 0. 825 0.188 — 0.374 — 0. 237 
已 获 利息 倍数 0. 594 — 0. 630 0. 052 0. 395 
销售 增长 率 (%) 0.702 0. 302 0.461 0. 042 
资本 积累 率 (%) 0. 620 — 0. 342 0. 474 — 0. 429 


Extraction Method; Principal Component Analysis. 


a. 4 components extracted. 


结果 5-5-1, 从 每 个 变量 抽出 信息 的 百分比 可 以 看 出 ,几乎 所 有 的 变量 被 抽出 的 信息 都 
达到 或 超过 了 80% 。 这 说 明 当 选择 抽出 4 个 主 成 分 时 ,抽出 的 信息 比 2 个 主 成 分 多 了 ,并且 
已 经 足够 。 
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结果 5-5-2 给 出 了 抽出 的 各 个 主 成 分 的 信息 比例 ,以 及 因子 旋转 以 后 各 个 主 成 分 的 信息 
比例 .从 中 知道 :虽然 总 体 4 个 主 成 分 的 信息 没有 变 , 但 是 4 个 主 成 分 间 的 信息 相差 变 小 了 。 

结果 5-5-3 给 出 了 碎 石 图 。 

结果 5-5-4 给 出 了 没有 经 过 因子 旋转 的 主 成 分 系数 ,各 个 主 成 分 没有 非常 明显 地 将 质量 
侧重 在 茶几 个 变量 上 ,所 以 很 难 对 各 个 主 成 分 进行 解释 。 

(3) 结果 5-6: 因 子 旋 转 的 结果 。 


结果 5-6-1 Rotated Component Matrixa 


Component 
1 2 3 4 
净 资 产 收 益 率 (%) 0. 640 0. 615 0. 299 0. 203 
总 资产 报酬 率 (%) 0.587 0.761 0. 140 — 0. 008 
资产 负债 率 (%) 0. 044 一 0. 193 一 0.131 0. 907 
总 资产 周转 率 0. 895 0. 065 0. 224 0. 161 
流动 资产 周转 率 (%) 0. 919 0. 209 0. 137 一 0.066 
已 获 利 息 倍 数 0. 027 0. 881 0. 212 — 0. 294 
销售 增长 率 (%) 0. 370 0. 305 0. 593 0.467 
资本 积累 率 (%) 0. 211 0. 195 0. 872 — 0. 260 


Extraction Method; Principal Component Analysis. 
Rotation Method; Varimax with Kaiser Normalization. 


a. Rotation converged in 6 iterations. 


结果 5-6-2 Component Transformation Matrix 


Component 1 2 3 4 
1 
2 


2 


Extraction Method; Principal Component Analysis, 


Rotation Method: Varimax with Kaiser Normalization. 


结果 5-6-3 Component Score Coefficient Matrix 


Component 
1 2 3 4 
净 资产 收益 率 (%) 0. 093 0. 294 一 0.036 0. 186 
总 资产 报酬 率 (%) 0.110 0. 450 — 0. 275 0. 033 
资产 负债 率 (%) 一 0. 111 0. 081 — 0. 043 0. 761 
总 资产 周转 率 0. 506 — 0. 294 — 0. 017 — 0. 069 
Hi VE A RA) 0. 562 — 0.196 — 0. 194 — 0. 253 
已 获 利 息 倍 数 一 0.277 0. 662 一 0.078 一 0.038 
销售 增长 率 (%) 一 0.154 0. 067 0. 523 0. 443 
资本 积累 率 (%) —0.113 —0. 261 0. 896 — 0. 189 


Extraction Method; Principal Component Analysis. 


Rotation Method; Varimax with Kaiser Normalization. 
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结果 5-6-4 Component Score Covariance Matrix 


Component 


1 


2 
3 
4 


Extraction Method; Principal Component Analysis. 


Rotation Method: Varimax with Kaiser Normalization. 


结果 5-6-1, 上 面 因子 旋转 以 后 的 因子 载荷 矩阵 可 以 知道 : 

第 一 个 公 因 子 主 要 的 载荷 集中 在 总 资产 周转 率 与 流动 资产 周转 率 上 ,同时 也 有 相对 比 
较 多 的 载荷 在 净 资 产 收益 率 与 总 资产 报酬 率 上 ,因此 第 一 个 因子 体现 公式 的 总 体 运 营 情况 ， 
称 为 综合 因子 。 

第 二 个 因子 主要 的 载荷 集中 在 已 获 利 息 倍 数 .总 资产 报酬 率 和 净 资 产 收益 率 上 ,可 以 理 
解 成 公司 的 获 利 能 力 因子 。 

第 三 个 因子 主要 的 载荷 集中 在 资本 累计 率 和 销售 增长 率 上 ,因此 这 个 因子 

可 以 理解 成 公司 的 发 展 能 力 因子 。 

第 四 个 因子 主要 的 载荷 集中 在 资产 负债 率 上 ,所 以 它 是 公司 的 负债 因子 。 

结果 5-6-2 图 给 出 了 用 于 因子 旋转 的 变换 矩阵 ,此 时 这 个 变换 和 矩阵 与 单位 矩阵 相差 很 
大 ,这 说 明 因 子 转换 对 因子 的 表达 式 变化 很 大 。 

结果 5-6-3 给 出 了 公 因 子 用 5 个 原始 自 变量 表示 的 线性 估计 。 

结果 5-6-4 给 出 了 公 因 子 个 协 方差 矩阵 。 
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验 六 ”典型 相关 分 析 


sy 


Wa 


6.1 实验 背景 


在 SPSS 中 可 以 用 两 种 方法 来 拟 合 典 型 相关 分 析 , 第 一 种 是 采用 Manova 过 程 来 拟 合 ， 
第 二 种 是 采用 专门 提供 的 宏 程序 来 拟 合 , 第 二 种 方法 在 使 用 上 非常 的 简单 ,而 输出 的 结果 非 
常 的 详细 。 因 此 这 里 只 对 第 二 种 方法 进行 介绍 。 

利用 SPSS 软件 对 C. R. Rao(1952) 关于 典型 相关 的 经 典 例子 进行 分 析 。 表 6-1 列举 了 
25 个 家 庭 的 成 年 长 子 和 次 子 的 头 长 和 头 宽 . 利 用 典型 相关 分 析 法 分 析 长 子 和 次 子 头 型 的 相 
关 性 。 


6.2 ”实验 步骤 和 结果 分 析 


(—) 实验 数据 

为 了 研究 兄长 的 头 型 与 弟弟 的 头 型 间 的 关系 ,研究 者 随机 抽查 了 25 个 家 庭 的 两 兄弟 的 
头 长 和 头 宽 , 资 料 见 表 6-1 ,希望 求 得 两 组 变量 的 典型 变量 及 典型 相关 系数 .这 里 ,代表 兄长 
头 型 的 变量 为 第 一 组 变量 ,代表 弟弟 头 型 的 变量 为 第 二 组 变量 ,希望 求 得 的 是 两 组 变量 间 的 
相关 性 。 


表 6-1 兄弟 头 长 与 头 宽 的 相关 资料 (单位 :mm) 

序号 Xi 兄 头 长 X: yo 3k GE Y, BLK Y, 2B 3k 36 
l 191. 00 155. 00 179. 00 145. 00 
2 183. 00 153. 00 188. 00 149. 00 
3 189. 00 150. 00 190. 00 149. 00 
4 192. 00 505 00 187. 00 151. 00 
5 174. 00 150. 00 185. 00 152.00 
6 163. 00 137.00 161. 00 130. 00 
7 181. 00 45. 00 182. 00 146. 00 
8 174. 00 143. 00 178. 00 147.00 
9 190. 00 163. 00 187.00 150. 00 
10 195. 00 149. 00 201. 00 152.00 
11 176. 00 44. 00 171. 00 142. 00 
12 197.00 159. 00 189. 00 152. 00 
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实验 六 


典型 相关 分 析 

续 表 

序号 X, WEE X, 兄 头 宽 Yi PEK Yo 弟 头 宽 
13 179. 00 158. 00 186. 00 148. 00 
14 190. 00 159. 00 195. 00 157. 00 
15 195. 00 155. 00 183. 00 158. 00 
16 175. 00 140. 00 165. 00 137. 00 
17 176. 00 139. 00 176. 00 143. 00 
18 181. 00 148. 00 185. 00 149. 00 
19 208. 00 157. 00 192. 00 152. 00 
20 188. 00 152. 00 197. 00 159. 00 
21 183. 00 147. 00 174. 00 147. 00 
22 188. 00 151. 00 187. 00 158. 00 
23 186. 00 153. 00 173. 00 148. 00 
24 192. 00 154. 00 185. 00 152. 00 
25 197. 00 167. 00 200. 00 158. 00 

(=) 实验 步骤 


1. 点 击 “Files 一 New — Syntax”, 打 开 SPSS 的 语法 输入 窗口 ,如 图 6-1。 


n ne 


图 6-1 


进入 SPSS 的 语法 输入 窗口 


2. 在 语法 输入 窗口 输入 如 下 程序 ,调查 典型 相关 分 析 的 专用 模块 ,具体 程序 见 图 6-2: 
输入 时 要 注意 “Canonical correlation. sps” 程 序 所 在 的 根 目 录 , 注 意 变量 组 的 格式 和 空 
所 在 的 根 目 录 为 :D:\Program 
Files\SPSSInc\SPSS16\Samples. #44 1 包含 X1,X2 ,变量 组 2 包含 Y1,Y2。 
3. 在 图 6-2 所 示 的 窗口 中 ,按照 Run 菜单 一 之 ALL 开 始 运 行 典 型 相关 计算 程序 ,主要 


f. 这 E, 


显示 结果 如 下 。 


“Canonical 


correlation. sps” 
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cd *Syntaxl - SPSS Syntax Editor 
Ele Edit View Data Transform Analyze Graphs Uiilties 
Hà» B.S A > OO r ws 


INCLUDE ‘D:\Program Files\SPSSInc\SPSS16\Samples\Canonical correlation. sps’. 
CANCORR SET1=X1 X2 / 
SET2=Y1 Y2/. 


图 6-2 SPSS 的 语法 输入 窗口 程序 图 


(三 ) 实验 结果 与 分 析 
1, 实验 输出 结果 
表 6-2 ”变量 内 部 相关 矩阵 表 


Correlations for Set-1 
X1 X2 

X1 1.0000 .7346 

x2 .7346 1.0000 


Correlations for Set-2 
Y1 Y2 

Y1 1.0000 .8393 

Y2  .8393 1.0000 


表 6-3 ”变量 间 的 两 两 相关 矩阵 


Correlations Between Set-1 and Set-2 
Y1 Y2 

E] .7108 .7040 

x2 .6932 .7086 


表 6-4 ”典型 相关 系数 表 


Canonical Correlations 
1 .789 


2 .054 


X 6-5 相关 系数 检验 表 


Test that remaining correlations are zero: 
Wilk's Chi-SQ DF Sig. 


1 .377 20.964 4.000  .000 
2 997 062 1.000  .803 
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实验 六 
典型 相关 分 析 


表 6-6 典型 变量 1 系数 列表 
Standardized Canonical Coefficients for Set-1 
1 2 


X1 -.552 -1.366 
X2 -.522 1. 378 


Raw Canonical Coefficients for Set-1 


1 2 
X1 -. 057 -. 140 
X2 -. 071 . 187 


表 6-7 典型 变量 2 系数 列表 


Standardized Canonical Coefficients for Set-2 


1 2 
Y1 -.504 -1.769 
Y2 -. 538 1.759 


Raw Canonical Coefficients for Set-2 


1 2 
Y1 -. 050 -. 176 
Y2 -. 080 . 262 


表 6-8 第 一 变量 中 的 典型 相关 系数 表 


Canonical Loadings for Set-1 


1 2 
X1 -.935 -. 354 
X2 -. 927 .375 


Cross Loadings for Set-1 


1 2 
X1 -. 737 -. 019 
X2 -. 731 . 020 
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表 6-9 第 二 变量 中 的 典型 相关 系数 表 


Canonical Loadings for Set-2 


1 2 
Yi -. 956 -. 293 
Y2 —. 962 .274 


Cross Loadings for Set-2 


1 2 
Y1 -. 754 -. 016 
Y2 -. 758 .015 


表 6-10 TRREDHR 1 


Redundancy Analysis: 


Proportion of Variance of Set-1 Explained by Its Own Can. Var. 


R 6-11 宛 余 度 分 析 表 2 


表 6-12 ” 宛 余 度 分 析 表 3 


表 6-13 补充 说 明 表 


The canonical scores have been written to the active file. 

Also, a file containing an SPSS Scoring program has been written 

To use this file GET a system file with the SAME variables 

Which were used in the present analysis. Then use an INCLUDE command 


to run the scoring program. 
For example : 

GET FILE anotherfilename 

INCLUDE FILE "CC  .INC". 
EXECUTE. 


2. 实验 结果 分 析 

(1) 首先 给 出 的 是 两 组 变量 内 部 各 自 的 相关 和 矩阵 (如 表 6-2) ,第 一 组 变量 间 的 相关 系数 
为 0.7436, 即 兄长 的 头 长 和 头 宽 的 相关 系数 为 0.7436。 第 二 组 变量 间 的 相关 系数 为 0.8393 。 
可 见 兄弟 间 头 长 和 头 宽 是 有 相关 性 。 

(2) X& 6-3 给 出 的 是 两 组 变量 间 各 变量 的 两 两 相关 和 矩阵 ,从 此 表 中 可 以 看 出 相关 系数 均 
在 0. 7 左右 ,可 见 兄 弟 的 指标 间 确 实 存 在 相关 性 ,这 里 需要 做 的 就 是 提取 出 综合 指标 来 代表 
这 种 相关 性 。 

(3) 表 6-4 给 出 的 是 提取 的 两 个 典型 相关 系数 的 大 小 ,可 见 第 一 典型 相关 系数 为 0.789， 
第 二 典型 相关 系数 为 0. 054。 

(4) 表 6-5 为 检验 各 典型 相关 系数 有 无 统计 意义 的 ,第 一 对 典型 变量 显著 性 检验 的 xy” 
统计 量 为 20.964,p 值 为 0, 说 明 第 一 对 典型 相关 变量 显著 相关 .第 二 对 典型 相关 变量 显著 性 
检验 的 六 统计 量 为 0.062,p 值 为 0.803, 说 明 第 二 对 典型 相关 变量 相关 性 不 显著 ,可 见 第 一 
对 典型 相关 系数 有 统计 学 意义 ,而 第 二 对 典型 相关 系数 则 没有 统计 学 意义 .因此 ,只 取 第 一 
对 典型 相关 变量 即 可 。 

(5) 表 6-6 显示 各 典型 变量 与 变量 组 1 中 各 变量 间 标 化 与 未 标 化 的 系数 列表 ,由 此 可 以 
写 出 典型 变量 的 转换 公式 ( 标 化 的 ) 为 : 

L, = 0.552 x X, 十 0.552x X, L: = 1.336 * X, — 1. 378 x X, 

(6) 表 6-7 显示 各 典型 变量 变量 组 2 中 各 变量 间 标 化 与 未 标 化 的 系数 列表 ,同上 可 以 写 
出 典型 变量 的 转换 公式 ( 标 化 的 ) 为 : 

M, = 0.504 x Y, 十 0.538*Y， M, = 1. 769 x Y, — 1. 759 x Y, 

(8) K 6-8 显示 第 一 变量 组 中 各 变量 分 别 与 自身 .相关 的 典型 变量 的 相关 系数 ,可 见 它 
们 主要 和 第 一 对 典型 变量 的 关系 比较 密切 。 

(9) 表 6-9 显示 第 二 变量 组 中 各 变量 分 别 与 自身 、 相 关 的 典型 变量 的 相关 系数 ,可 见 它 
们 主要 和 第 一 对 典型 变量 的 关系 比较 密切 。 

下 面 即将 输出 的 是 元 余 度 (Redundancy) 分 析 结 果 , 它 列 出 各 典型 相关 系数 所 能 解释 员 
变量 变异 的 比例 ,可 以 用 来 辅助 判断 需要 保留 多 少 个 典型 相关 系数 。 

(10) 表 6-10 显示 的 是 第 一 组 变量 的 变异 可 被 自身 的 典型 变量 所 解释 的 比例 ,可 见 第 一 
典型 变量 解释 了 总 变异 的 86.7 % ,而 第 二 典型 变 来 能 够 则 只 解释 了 总 变异 的 13.3 * 。 

(11) 表 6-11 显示 的 是 第 一 组 变量 的 变异 能 被 它们 相对 的 典型 变量 所 解释 的 比例 ,可 见 
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L| 2 元 统 i lg ib 5 3: Ze 


第 二 典型 变量 的 解释 度 非常 小 。 

(12) X 6-12 显示 的 是 第 二 变量 组 的 变异 分 别 能 被 自身 .相对 的 典型 变量 所 解释 的 比 
例 , 可 见 结论 和 上 面 一 样 ,第 二 对 变量 的 贡献 非常 小 .因此 综合 上 述 宛 余 分 析 结 果 ,我 们 只 需 
要 保留 第 一 对 典型 变量 即 可 。 

(13) 最 后 系统 给 出 说 明 : 标 化 变量 已 被 写 入 当前 文件 ,同时 相应 的 计算 程序 也 以 文件 
形式 被 存储 在 当前 目录 中 ,可 以 使 用 GET 命令 进入 数据 文件 ,再 使 用 INCLUDE 命令 来 调 
用 相应 程序 。 
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对 应 分 析 


实验 七 。 对 应 分 析 


7.1 实验 背景 


对 应 分 析 法 的 整个 处 理 过 程 由 两 部 分 组 成 : 列 联 表 和 关联 图 ,在 关联 图 上 ,我 们 能 把 众 
多 的 样品 和 众多 的 变量 同时 作 到 同一 张 图 解 上 ,将 样品 的 大 类 及 其 属性 在 图 上 直观 而 又 明 
了 地 表示 出 来 ,具有 直观 性 。 

本 实验 通过 例 7.1, 例 7. 2 说 明 如 何 运 用 SPSS 软件 的 Correspondence Analysis 模块 进 
行 对 应 分 析 。 


7.2 SCUSZE RA AG AR OD PT 


(一 ) 实验 数据 

例 7.1 选用 SPSS 软件 自 带 的 GSS93 subset. sav 数据, 该 数据 在 SPSS 软件 的 安装 目 
录 下 可 以 找到 ,该 数据 共 包 括 1500 个 观测 ,67 个 变量 。 选 用 该 数据 集中 Degree( 学 历 ) 与 
Race( 人 种 ) 变量 为 例 来 进行 他 们 之 间 的 对 应 分 析 。 其 中 Degree 变量 各 个 取 值 的 含义 如 下 : 
0 一 中 学 以 下 (less than high school) ,1 一 中 学 (high school) ,2 一 专科 (junior college) ,3 一 
本 科 (bachelor) ,4 一 研究 生 (graduate) ,7,8,9 一 缺失 ;Race 变量 各 个 取 值 的 含义 如 下 :1 一 
白 种 人 (white) ,2 一 黑 种 人 (black) ,3 一 其 他 (other) 。 

(二 ) 实验 步骤 

1. 打开 数据 

找到 SPSS 程序 的 安装 目录 ,在 其 中 的 Samples 文件 夹 中 找到 GSS93 subset. sav, 双击 
打开 ,在 打开 成 功 后 将 数据 文件 另存 为 “7. 1 对 应 分 析 . sav”. 

2. 对 数据 文件 进行 处 理 

如 果 数 据 文件 中 有 频数 变量 ,应 该 首先 做 加 权 处 理 。 在 Data — Weight Cases, 如 下 图 把 
频数 选择 进 右 边框 。 例 7. 1 人数 并 无 加 权 , 一 条 记录 信息 代表 一 个 人 ,因此 本 实验 的 这 个 步 
TRG E. 

3. 对 应 分 析 

按 如 下 方式 选择 :Analyze Data Reduction — Correspondence Analysis: 


167 


Nonparametric Tests 


“degree” HEA Row, 点 击 它 下 面 的 Define Range, TE “Minimum value” 这 一 项 中 输入 0, 在 
“Maximum value” 这 一 项 中 输入 4, 点 击 Update, 然后 点 击 Continue: 下 图 中 的 “id” 应 
J” degree”, 


ei Correspondence Analysis 
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4 Correspondence Analysi 


Minimum value: 


Maximum value: 


bp | 
k | 


s:Define Row... | 


r Category range for row variable: degree — — —————3 


NN 


r Category Constraints 


($) None 


对 应 分 析 


将 "race” 选 入 Column ,点 击 它 下 面 的 Define Range, 在 “Minimum value” 这 一 项 中 输入 
1 ,在 “Maximum value” 这 一 项 中 输入 3 ,点 击 Update。 然 后 点 击 Continue。 然 后 点 击 OK: 


(三 ) 结果 分 析 
(1) 结果 7-1: 对 应 分 析 表 ( 列 联 表 ) 。 


.4: Correspondence Analysis: 


Define Co... 


r Category Constraints 


(9) None 


© Categories must be equal 
© Category is supplemental 


结果 7-1 Correspondence Table 
Race of Respondent 
R's Highest Degree 2 
white black other Active Margin 

Less than HS 214 48 17 279 
High school 658 92 30 780 
Junior college 74 I3 3 90 
Bachelor 209 7 18 234 
Graduate 99 7 7 113 
Active Margin 1254 167 75 1496 
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结果 7-1 给 出 了 由 原始 数据 按 Degree 与 Race 分 类 的 列 联 表 ,由 于 原始 数据 中 有 4 条 记 
录 有 缺失 ,所 以 观测 总 数 n = 1496 而 不 是 原始 数据 观测 个 数 1500, 
(2) 结果 7-2: 对 应 分 析 结 果 汇 总 表 : 


结果 7-2 Summary 


Proportion of Inertia Confidence Singular Value 
: . Singular ; Chi , 3 : 
Dimension Inertia Sig. Accounted n . Standard Correlation 
Value Square Cumulative "an 
for Deviation 2 
1 0. 144 0.021 0. 852 0. 065 
2 0. 060 0. 004 0. 148 
0. 024 0. 000a 1. 000 


a. 8 degrees of freedom 


结果 7-2: Summary 是 对 应 分 析 的 核心 结果 ,第 1 列 是 特征 根 的 编号 ,由 对 应 分 析 的 原 
FE ,提取 的 特征 根 数 为 :min{ 行 变量 类 别 数 , 列 变 量 类 别 数 }-1, 此 处 正好 为 min{5,3) 一 1 
= 2, 

Singular Value & Inertia: ff & (Inertia) 相当 于 因子 分 析 中 的 特征 根 ,奇异 值 (Singular 
Value) 就 是 惯量 的 平方 根 。 第 1 个 特征 值 的 值 最 大 ,第 2 个 特征 值 较 小 ,类 似 于 因子 分 析 中 
特征 值 的 含义 知道 ,特征 值 越 大 表示 该 因子 对 各 类 差异 的 解释 越 强 。 

Chi-Square & Sig. :这 里 的 x 值 就 是 上 面 列 联 表 进 行 独立 性 检验 所 用 到 的 x: 检验 统计 
量 和 显著 性 水 平 (p 值 ) ,假设 显著 性 水 平 为 0.05, 这 里 p= 二 000 二 0.05, 可 认为 行 变 量 与 列 变 
量 有 显著 的 相关 关系 。 

Proportion of Inertia :表示 每 个 维度 的 信息 量 (惯量 ) 占 所 有 信息 量 的 比例 ,第 一 维度 可 
解释 总 信 量 的 85. 276. 

Confidence Singular Value: 给 出 奇异 值 的 95% 可 信 区 间 , 即 给 出 了 一 个 标准 差 的 值 。 
同时 还 给 出 了 两 个 维度 的 相关 系数 。 

(3) 结果 7-3; 对 应 分 析 具 体 结果 。 


结果 7-3-1 Overview Row Pointsa 


Score in Dimension Contribution 

R’s Highest . JOf Point to Inertia Of Dimension to 

Degree Muss i 2 Inertia of Dimension Inertia of Point 
2 Total 
Less than HS 0.186 | — 0.462 | — 0.414 | 0.008 0 0. 750 0. 250 1.000 
High school 0.521 | —0.078 0.192 0. 002 0. 022 0. 322 0. 285 0. 715 1. 000 
Junior college 0.060 | — 0. 304 0. 193 0. 001 0. 039 0. 037 0. 857 0. 143 1. 000 
Bachelor 0. 156 0. 723 — 0. 203 | 0.012 0. 566 0. 107 0..968 0. 032 1. 000 
Graduate 0. 076 0. 429 — 0.041 | 0.002 0.096 0. 002 0. 996 0. 004 1.000 

Active Total 1 0. 1 


a. Symmetrical normalization 


上 表 称 为 行 点 汇总 图 ,给 出 了 行 变 量 (Degree) 各 类 别 的 分 析 结 果 概 况 .具体 各 项 的 解 
释 如 下 : 
Mass: 表 示 每 个 类 别 的 样本 数 占 总 样本 数 的 比例 ; 
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实验 七 
对 应 分 析 

Score in Dimension: 表 示 行 变量 各 分 类 对 于 第 1 和 第 2 个 因子 上 的 因子 载荷 ,同时 它们 
也 将 成 为 散 点 图 中 相应 类 别 的 坐标 。 

Inertia 给 出 了 每 个 类 别 的 特征 值 。 

Contribution: Of Point to Inertia of Dimension: 第 6 和 第 7 列 是 行 变 量 各 分 类 对 第 1 
和 第 2 个 因子 的 差异 影响 程度 .可 以 看 出 ,Bachelor 对 第 一 个 因子 值 影响 的 差异 最 大 ,达到 
56.6%. 

Of Dimension to Inertia of Point 下 面 表示 两 个 因子 对 行 变 量 各 分 类 差异 的 解释 程度 ， 
例如 :Less than HS, 第 一 个 因子 解释 了 75%, 第 二 个 因子 解释 了 25%% ,两 因子 共 解 释 了 
100% ,损失 信息 0。 


结果 7-3-2 Overview Column Pointsa 


Score in Dimension Contribution 
Race of M ire Of Point to Inertia Of Dimension to 
ss a 

Respondent i 1 2 m of Dimension Inertia of Point 

1 2 1 | 2 [| Total 
[s 
white 0. 838 0. 113 0. 079 0. 002 0. 074 0. 088 0. 830 | 0. 170 1. 000 
black 0.112 | =— 1. 051 | —0.134 | 0.018 0. 855 0. 033 0. 993 | 0.007 1. 000 
other 0.071 0. 879 0. 318 0. 682 1. 000 
Active Total 1. 000 1. 000 


a. Symmetrical normalization 


上 表 称 为 列 点 汇总 图 ,给 出 了 行 变量 (Race) 各 类 别 的 分 析 结 果 概 况 。 具 体 各 项 的 解释 
同上 面 行 点 汇总 图 。 


Row and Column Points 
Symmetrical Normalization 


e Rs Hghest Degree 
O Race of Respondent 


Junlor colege 
ee 


Dimension 2 


-1.5 
-1.5 -1.0 -05 0.0 0.5 1.0 
Dimension 1 


结果 7-3-3 ”对 应 分 析 图 (编辑 过 ) 


上 面 的 图 称 为 对 应 分 析 图 ,对 应 分 析 所 有 的 主要 信息 和 结论 都 可 以 在 这 个 上 面体 现 。 由 
于 SPSS 输出 的 原 图 对 两 个 变量 标示 的 颜色 区 别 不 大 ,所 以 将 上 图 中 行 变 量 (Degree) 由 空 
心 环 涂 成 了 实心 圆 ,并 且 加 上 了 过 原点 的 坐标 系 。 

对 应 分 析 图 主要 用 来 考察 不 同 变 量 的 类 别 之 间 的 联系 。 判 断 的 规则 为 : 

1. 落 在 从 图 形 原点 (0,0) 出 发 相同 方位 上 大 致 相同 区 域内 的 不 同 变 量 的 分 类 点 彼此 有 
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联系 ; 
2. 散 点 间距 离 越 近 ,说 明 关联 倾向 越 明 显 ， 
3. 散 点 离 原 点 越 远 ,也 说 明 关 联 倾向 越 明 显 。 
对 于 本 例 , 从 上 面 的 对 应 分 析 图 可 以 以 及 判断 方法 可 以 得 到 以 下 结论 : 


RowandColumn Points 
Symmetrical Normalization 


e Rs Hghest Degree 
O Race of Respondent 


Dimension 2 


-1.5 
-1.5 -1.0 -0.5 00 0.5 1.0 
Dimension 1 


1. BAA (Black) 与 低 于 高 中 学 历 (Less than HS) 有 和 较 强 的 关系 , 即 黑 人 的 教育 水 平 
一 般 在 高 中 以 下 ; 

2. 白 种 人 (White) 与 高 中 以 上 的 四 种 学 历 的 距离 都 比较 近 ; 

3. 其 他 人 种 (other) 没有 特别 明显 的 特征 。 

(四 ) 另 一 个 例子 的 因子 分 析 

例 7.2 本 案例 为 例 1. 1 中 的 数据 。 在 实验 六 中 对 这 个 数据 进行 过 因子 分 析 ,并且 当时 设 
定 抽出 的 因子 数 为 4 个 ,但 是 并 没有 选择 保留 这 四 个 因子 。 这 里 不 妨 再 快速 地 作 一 次 因子 分 
析 ,区 别 只 是 在 Scores 这 个 选项 中 选择 Save as variable ,方法 就 默认 为 "Regression7?”: 


bal Factor Analysis: Factor... X 


[v] Save as variables 
-Method 
(3) Regression 


[C] Display factor score coefficient matrix 


We | We 
| 


通过 这 样 做 了 因子 分 析 以 后 可 以 发 现 , 在 数据 窗口 中 多 了 四 个 变量 :Facl_1、Fac2_1、 
Fac3_1 和 Fac4_1。 这 里 所 需要 用 到 的 数据 并 不 是 这 四 个 连续 型 变量 ,而 是 希望 按照 Facl_1 
的 取 值 将 所 有 公司 关于 Facl_1 取 值 的 大 小 划分 为 4 个 等 级 : 
Facl 1 >= 0.5; O<=Facl_1< 0.5; — 0.5 <= Facl 1 <0; Facl_1<—0.5; 
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zet gum 
对 应 分 析 


并 且 分 别 将 它们 标示 为 1.2、3 和 4。 这 些 对 于 数据 的 初步 处 理 可 以 按照 如 下 方式 进行 : 
按 如 下 方式 选择 :Transform -> Recode into Different Variables: 


@ Run Pending Transtorms 


将 FAC1_1 选 和 人 右边 Numeric Variable — Output Variable 方 框 内 ; 点 击 方 框 内 的 
"FACI 1” XE, fe X2 AY Output Variable 方 框 被 激活 ,依次 在 Name 和 Label 下 面 输入 


“Score” All“ Factor Score”: 


=: Recode into Different Variables 


Cac) eos) Bene Lucero ata 


点 击 Old and New Values 选项 ,跳出 下 面 的 对 话 框 。 依 次 按 下 面 方式 计算 新 变量 的 值 ， 

1) 选中 Range,value though HIGHEST, 然 后 在 下 面 输入 的 方 框 内 输入 0.5, 在 右 侧 
New Value F HKJ Value JIENA 1, 点 击 Add。 这 一 步 就 把 Facl 1 取 值 在 L0. 5, 十 cc) 内 
的 值 都 转化 为 1; 

2) 选中 Range, 分 别 在 下 面 的 两 个 方 框 内 输入 0 和 0. 5, 然后 在 右 侧 New Value 下 面 的 
Value 方 框 内 输入 2, 点 击 Add。. 这 一 步 就 把 Facl 1 取 值 在 50,0. 5) 内 的 值 都 转化 为 2; 

3) 选中 Range, 分 别 在 下 面 的 两 个 方 框 内 输入 一 0.5 和 0, 然 后 在 右 侧 New Value 下 面 
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的 Value 方 框 内 输入 3, 点 击 Add。 这 一 步 就 把 Facl_1 取 值 在 [一 0.5,0) 内 的 值 都 转化 为 3; 

4) 选中 Range,LOWEST n value, 然 后 在 下 面 输入 的 方 框 内 输入 一 0.5, 在 右 侧 
New Value 下面 的 Value 方 框 内 输入 4, 点 击 Add。 这 一 步 就 把 Facl_1 取 值 在 (一 oo, 一 0.5) 
内 的 值 都 转化 为 4; 然 后 点 击 Continue, 4£Z ii OK. 


je into Different Variables: Old and New Values 


Change 


through 


© Range, LOWEST through value: 


O Range, value through HIGHEST: 


© All other values [C] Convert numeric strings to numbers (5-95) 


完成 了 上 面 的 转换 ,在 数据 窗口 就 可 以 发 现 多 了 一 个 变量 “Score”, 它 就 是 每 个 样本 的 
Facl_1 评 分 等 级 .为 了 更 加 直观 地 显示 ,可 以 在 Variable View 更 改变 量 “Score” 每 个 数值 对 
应 的 含义 , 即 添加 如 下 信息 

1 “Facl_1 >= 0. 5”;2 = “0 <= Facl_1< 0.5”; 

3 = “—0.5 <= Facl 1 < 0";4 = "Facl 1 <— 0.5”; 

见 下 图 : 


Il 


is: Value Labels 


1.00 = "Faci_1>=0.5" 


FEL ] 90 = 0-Fact 1-05 
Lowe ja- “0 Sea Fact 10" 


Remove | 4.00 = "Fac1 1«-0.5" 


具体 的 操作 方法 之 前 介绍 过 ,这 里 就 不 作 详细 说 明了 。 
下 面 对 这 个 案例 正式 地 进行 对 应 分 析 . 具 体 的 分 析 步 骤 和 案例 7. 1 一样, 这 里 不 再 具体 
写 出 ,只 分 析 对 应 分 析 的 结果 : 
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实验 七 “侧重 


对 应 分 析 


(1) 结果 7-4: 对 应 分 析 表 ( 列 联 表 ) 。 


结果 7-4 Correspondence Table 


Factor Score 
行业 Facl_1 > 0 <= Facl 1 —0.5« Facl 1 nue 
= 0.5 < 0.5 = Facl_1<0 <—0.5 ctive Margin 

电力 煤气 及 水 的 生 3 i i r L = 
产 和 供应 业 

房地产 业 0 1 5 9 15 

信息 技术 业 4 à ; 
Active Margin 5 


上 表 给 出 的 是 对 应 分 析 表 , 即 列 联 表 。 
(2) 结果 7-5: 对 应 分 析 结 果 汇 总 表 。 
结果 7-5 Summary 


Confidence Singular Value 


Proportion of Inertia 


: Singular : Chi : 
Dimension Inertia Accounted E : Standard Correlation 
Value Square Cumulative ppp 
for Deviation 2 
1 0.621 0. 385 0. 837 0. 837 0. 116 0.081 
2 0. 274 0.075 0. 163 1. 000 0.158 


0. 460 1. 000 1. 000 


a. 6 degrees of freedom 


上 表 给 出 了 整个 对 应 分 析 的 结果 汇总 表 。 
(3) 结果 7-6: 对 应 分 析 具 体 结果 。 


结果 7-6-1 
Score in Dimension Contribution 
-" Of Point to Inertia Of Dimension to 
4 Mass i 
行业 p 1 2 Inertia of Dimension Inertia of Point 
1 Total 
电力 煤气 及 水 的 P 
0.314] — 0. 202 0. 761 0. 058 0. 021 1. 000 
生产 和 供应 业 
房地产 业 0.429| 0.818 | 一 0.264 | 0.186 | 0.462 1. 000 
信息 技术 业 0.257| 一 1.117 | 一 0.490 | 0.216 | 0.517 1. 000 


Active Total 


a. Symmetrical normalization 


上 表 称 为 行 点 汇总 表 。 


结果 7-6-2 
Score in Dimension Contribution 

Factor Sup Maes hes Of Potat to Inertia Of Dimension to 

1 2 of Dimension Inertia of Point 
1 2 1 | 2 | Total 
Facl 1 >= 0.5 0. 200| — 1. 168 0. 169 0.171 | 0.439 0. 021 0. 991 | 0. 009 1. 000 
0 <= Facl_1 < 0.5 |0. 143] — 0.881 | — 0.711 | 0. 089 | 0.179 0.777 0. 223 1.000 
— 0.5 <= Facl 1—0/0.314| 0.288 0. 663 0.054 | 0.042 0. 505 0. 300 0. 700 1. 000 
Facl 1 «— 0.5 0.343| 0.784 — 0. 410 | 0. 147 0. 893 0. 107 1. 000 

Active Total 


a. Symmetrical normalization 
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Rowand Column Points 
Symmetrical Normalization 


O Factor Soore 
@ 行业 


Dimension 2 


hi 
-1.5 -1.0 -05 00 0.5 1.0 
Dimension 1 


结果 7-6-3 ”对 应 分 析 图 (编辑 过 ) 
te 分 析 图 ,对 上 述 的 解释 为 : 
言 息 技术 业 的 综合 能 力 是 三 个 行业 里 面 最 好 的 , 它 的 综合 因子 得 分 平均 在 [0,0. 


9) i 
2. 房地产 业 的 综合 能 力 最 差 ,综合 因子 得 分 平均 落 在 小 于 一 0.5; 


3. 电力 煤气 及 水 的 生产 和 供应 业 的 综合 能 力 介 于 前 两 个 行业 之 间 , 综 合 


因子 得 分 在 
[一 0.5,0) 内 。 


多 维 标 度 分 析 


NN ”多维 标 度 分 析 


8.1 实验 背景 


多 维 标 度 法 解决 的 问题 是 : 当 mn 个 对 象 (object) 中 各 对 对 象 之 间 的 相似 性 (或 距离 ) 给 
定时 ,确定 这 些 对 象 在 低 维 空间 中 的 表示 (感知 图 Perceptual Mapping) ,并 使 其 尽 可 能 与 原 
先 的 相似 性 (或 距离 ;大体 匹配 ”, 使 得 由 降 维 所 引起 的 任何 变形 达到 最 小 。 

以 SPSS 自 带 文件 World95. sav 为 例 , 对 亚洲 国家 和 地 区 的 17 个 国家 的 人 口 寿 命 情况 
进行 分 析 。 选 择 以 下 变量 :urban( 城 市 人 口 比例 ) ,lifeexpf{( 女 性 平均 寿命 ) ,lifeexpm( 男 性 平 
均 寿 命 ) ,gdp_cap( 人 均 GDP) ,death_rt( 千 人 死亡 率 ) ,birth_rt( 千 人 出 生 率 ) ,literacy( 受 教 
育 人 口 比 例 ) 所 涉及 的 统计 数据 ,对 17 个 国家 进行 多 维 标 度 分 析 。 


8.2 Sear ae TR AZ ARP BT 


(—) 实验 数据 

以 SPSS 自 带 文件 World95. sav 为 例 , 对 亚洲 国家 和 地 区 的 17 个 国家 的 人 口 寿命 情况 
进行 分 析 ,在 Data — Select case 对话 框 的 If EUR Z& PF Pi A EUR AR PF" region = 3” ,得 到 17 
个 国家 和 地 区 的 数据 。 

(=) 实验 步骤 

1. 主 菜单 中 选择 Analyze — Scale > Multidimensional Scaling (ALSCAL) ,就 进入 多 维 
标 度 法 的 主 对 话 框 ( 图 8-1)。 在 左上 方 的 变量 列表 选择 以 下 变量 :urban( 城 市 人 口 比 例 )， 
lifeexpf( 女 性 平均 寿命 ) ,lifeexpm( 男 性 平均 寿命 ),gdp_cap( 人 均 GDP) ,death_rt( 和 于 人 死 
亡 率 ) ,birth_rt( 千 人 出 生 率 ) ,literacy( 受 教育 人 口 比例 )。 由 于 原始 数据 不 是 距离 阵 , 因此 
需要 在 下 方 Distances 单 选 项 中 选择 Create distances from data, 这 时 Measure 子 对 话 框 被 
激活 ,默认 计算 Euclidean distance, 即 欧 氏 距离 。 

2. 点 击 进 入 Measure 子 对 话 框 ,对 距离 阵 进 行 设 定 ( 图 8-2) 。 由 于 我 们 的 变量 都 是 连续 
数值 型 的 ,所 以 应 在 Measure 单 选 项 中 选择 Interval. 并 在 其 下 方 的 Transform Values 栏 中 
选择 变量 标准 化 变换 的 方式 ,这 里 我 们 选择 Z scores 和 By variable, 表 示 对 变量 进行 正 态 标 
准 化 。 然 后 在 Create Distance Matrix 单 选 项 中 选择 Between cases, 表 示 计 算 样品 之 间 的 距 
离 阵 .设置 完毕 后 ,点击 Continue 回 到 主 对 话 框 。 

3. 在 主 对 话 框 中 点 击 进 入 Model 子 对 话 框 , 如 图 8-3。 这 里 可 以 设 定 变量 取 值 的 类 型 。 
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MB Nultidimensional Scaling 


«$i» Population in thous | s 
di» Number of people +| ®© People living in citie 加 
(Al Predominant religio 了 4b Average female lite 时 | 
使 Population increast @ Average male life e» 

@® Infant mortality (dez @® Gross domestic proc _ 
@® Region or economi 
®© Daily calorie intake Individual Matrices for: 


@ Neath rate nec 100r AE) 


@ Aids cases [aids] I. 
m Distances — ——— 
| C Data are distances 
| a jua 
| = y 
| (* Create distances from data 
| 


Measure... | Euclidean distance 


图 8-1 多 维 标 度 法 的 主 对 话 框 


Nultidimensional Scaling: Create Measure ... 


" interval! [Euclidean distance =] 
Power [2] Root Ez 


C Counts: Chi-square measure 


Ab sent I 


EG | 
~ Create Distance Matrix 
Between variables 

(* Between cases 


图 8-2 Measure 子 对 话 框 


在 Level of Measurement 中 选择 Interval, 即 连续 取 值 的 数值 型 变量 .其 他 设置 无 需 改 变 ,点 
ik Continue 返回 主 对 话 框 。 

4. 点 击 进 入 Options 子 对 话 框 (图 8-4). 该 对 话 框 中 提供 了 一 些 结 果 显 示 的 选择 。 
Display 栏 中 默认 不 输出 任何 图 表 .。 选 择 Group plots 项 可 得 到 多 维 标 度 图 ,这 里 图 表 的 维度 
由 Model 中 的 Dimensions 中 填 人 最 小 维度 Minimum 和 最 大 维度 Maximum 决定 ;选择 Data 
matrix 项 可 得 到 距离 阵 和 拟 合 构造 点 的 坐标 ;而 Model and options summary 是 显示 出 多 维 
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实验 八 
多 维 标 度 分 析 


Nultidimensional Scaling: Model 


~ Scaling Model — — ee 
Euclidean distance 
C' Individual differences Euclidean distance: 
[^ Allow negative subject weights 


图 8-3 Model F Xt ii HE 


标 度 法 中 的 参数 设置 , 计算 方法 等 .这 里 我 们 选择 Group plots 和 Data matrix 项 后 , 点击 
Continue 返回 主 对 话 框 ,再 点 击 OK 运行 。 


Multidimensional Scaling: Options fX 


m Display 
[v Group plots 


S-stress convergence: [oo 
| Minimum s-stress value: [005 


| Mae iterations: [2m 


—— — ERG | 


| 
| 


Treat distances less than: [o as missing 


图 8-4 Options F X} HHE 


(=) 实验 结果 与 分 析 
l. 样品 验证 表 , 发 现 有 一 个 样品 存在 缺失 值 . 查 原始 数据 后 发 现 Taiwan 缺少 千 人 死亡 
率 ,该 样品 被 去 除 。 国 家 地 区 的 编号 如 下 ( 表 8-1) 。 
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表 8-1 国家 和 地 区 的 编号 


Afghanistan varl Indonesia S. Korea varl3 

Bangladesh var2 Japan varg | Singapore varl4 

Cambodia var3 Malaysia var9 Taiwan * 
China var4 N. Korea varl0 Thailand varl5 

Hong Kong var5 Pakistan varll Vietnam varl6 
India var6 Philippines 


2. SPSS 会 依次 输出 原始 距离 阵 ( 表 8-2) ,古典 解 的 迭代 过 程 和 有 关 压 力 指 标 值 ( 表 
8-3) , 拟 合 构造 点 在 二 维 空间 中 的 坐标 ( 表 8-4) ,以 及 最 优 标 度 的 距离 阵 ( 表 8-5). EK 8-3 
中 ,Young 氏 压力 指标 值 为 0.02289,K 压力 指标 为 0.03880 ,都 小 于 0.05。.RSQ = 0. 99485, 
这 些 都 说 明 模 型 拟 合 效果 很 好 。 


表 8-2 原始 距离 阵 (部 分 ) 


Raw (unscaled) Data for Subject 1 


1 2 3 4 5 

] 0 

2 3. 15 0 

3 1. 794 1. 451 0 

4 5. 822 3. 144 4.177 0 

5 7. 905 5. 685 6. 554 3. 59 0 


X 8-3 压力 指标 检验 


Iteration history for the2 dimensional solution (in squared distances) 
Young's $-stress formula 1 is used. 
Iteration S-stress Improvement 
.03057 
.02463 .00594 
.02338 .00124 
.02289 .00049 
Iterations stopped because 
§-stress improvement is less than .001000 


Stressand squared correlation (RSQ) in distances 
RSQ values are the proportion of variance of the scaled data (disparities) 
in the partition (row, matrix, or entire data) which 
is accounted for by their corresponding distances. 


Stress values are Kruskal's stress formula 1. 


For matrix 
.03880 
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实验 八 


多 维 标 度 分 析 
表 8-4 拟 合 点 的 在 2 维 标 度 中 的 坐标 (部 分 ) 
Configuration derived in 2 dimensions Stimulus Coordinates 
. . Dimension 
Stimulus Number Stimulus Name f P 
1 VARI 2.8077 — 0. 7825 
2 VAR2 1. 4351 0. 0200 
3 VAR3 1.9799 — 0. 2425 
4 VAR4 — 0.1950 0. 5249 
5 VAR5 — 1.7190 — 0. 7151 
R85 最 优 标 度 的 距离 阵 (部 分 ) 
Optimally scaled data (disparities) for subject 1 
1 2 3 1 5 
1 0. 000 
2 1. 676 0. 000 
3 0. 856 0. 648 0. 000 
4 3. 293 1.073 2. 298 0. 000 
5 4. 553 3. 210 3.736 1. 942 0. 000 


3. 接 下 来 是 欧 氏 距离 下 的 16 个 国家 和 地 区 的 拟 合 构造 点 的 二 维 图 (图 8-5), 从 图 上 可 
以 看 出 比较 发 达 的 地 区 基本 都 在 第 三 个 象限 ,如 香港 ,日 本 ,新 加 坡 ,而 中 国 和 泰国 ,菲律宾 
等 国 较为 接近 ,而 线性 拟 合 散 点 图 (图 8-6) 从 图 形 上 告诉 我 们 采用 欧 氏 距离 来 拟 合 原始 数 
据 的 距离 阵 是 非常 合适 的 。 


Dimension 2 


Derived Stimulus Configuration 
Euclidean distance model 


Dimension 1 


图 8-5 拟 合 构造 点 的 二 维 坐标 图 
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Scatterplot of Linear Fit 
Euclidean distance model 


Distances 


Disparities 


图 8-6 ” 欧 氏 距离 下 的 线性 拟 合 散 点 图 
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